Навигация по лесу науки о данных: руководство для начинающих по изучению конвейера науки о данных, машинного обучения, глубокого обучения, активного обучения и обучения с подкреплением

Умные люди знают, что нельзя знать все. Поэтому я хочу познакомить вас с лесом, где другие могут познакомить вас с определенным деревом. Я предоставлю более широкий взгляд, чтобы вы выбрали, куда углубиться.

Этот пост в блоге является частью лекции, прочитанной в сентябре 2020 года. Для тех, кто заинтересован в просмотре записанной лекции и доступе к слайдам, ссылки можно найти в конце этого поста в блоге.

Что мы будем освещать?

Мы рассмотрим следующее:

· Конвейер обработки данных
· Машинное обучение
· Into Deep Интуитивное введение в глубокое обучение
· Умная маркировка
· Интуитивное введение к активному обучению.»
· Интуитивно понятное введение в обучение с подкреплением.
· Краткое изложение пайплайна науки о данных

Конвейер науки о данных

Давайте поговорим о конвейере науки о данных. Вы получаете данные и играете с ними; вы удаляете то, что вам не нужно, и чистите это. Вы подготавливаете данные для своей модели машинного обучения, применяете модель и проверяете ее. Сделайте это пару раз, чтобы получить лучшие результаты, а иногда вы развернете его и сделаете потрясающую визуализацию своих выводов.

Легко, не так ли?

Обычно это не так — когда вы проводите исследование, вы собираете данные, которые могут помочь вам с вашим исследовательским вопросом. После понимания ваших данных вы очищаете их и входите в цикл изучения, предварительной обработки и моделирования, затем проверяете их и рассказываете историю о том, какие новые идеи принесло ваше исследование.

Правдиво? Конвейер науки о данных больше похож на бесконечный цикл, когда данные находятся в его ядре, но на самом деле это не проблема. Чтобы понять данные, вам нужно понять область исследования. Эти понимания отражают друг друга, затем вы подготовите свои данные для моделирования, оцените их, и мы надеемся, что это приведет к более глубокому пониманию предметной области, что приведет к лучшему пониманию предметной области и так далее.

Понимание предметной области и исследовательские вопросы лежат на вас; как насчет данных?

Машинное обучение

Машинное обучение: краткий обзор различных типов

В классическом контролируемом машинном обучении у вас обычно есть матрица признаков и целевой вектор, другими словами, помеченные данные.

Полууправляемое машинное обучение применяется к частично размеченным данным (псевдомаркировка), а машинное обучение без учителя применяется к неразмеченным данным.

На следующей диаграмме показано, какие поля используют какие типы машинного обучения:

На следующей диаграмме показаны некоторые названия алгоритмов для каждого типа машинного обучения — некоторые из названий, которые вы, вероятно, знаете из разных областей.

Вглубь

Интуитивно понятное введение в глубокое обучение, активное обучение и обучение с подкреплением.

Глубокое обучение — это область контролируемого машинного обучения. Он делает алгоритм на шаг дальше от программиста и на шаг ближе к ИИ. Вот трое основателей полей:

Слева:

Уолтер Гарри Питтс-младший (23 апреля 1923 г. — 14 мая 1969 г.) был логиком, работавшим в области вычислительной нейробиологии.

Warren Sturgis McCulloch (16 ноября 1898 — 24 сентября 1969) — американский нейрофизиолог.
Уоррен Маккалох и Уолтер Питтс [*] (1943) открыли тему ИНС путем создания вычислительной модели для нейронных сетей.

Фрэнк Розенблатт (11 июля 1928 — 11 июля 1971) — американский психолог, известный в области искусственного интеллекта. Он изобрел персептрон в 1960 году. [*] По сути, это был первый компьютер, который мог обучаться новым навыкам методом проб и ошибок, используя тип нейронной сети, моделирующий мыслительные процессы человека.

Идея состоит в том, что каждая строка в матрице является одним входом, и каждый признак этой строки проходит через каждый нейрон в скрытом слое — черном ящике — и из этого черного ящика выходит выход.

Структуру можно рассматривать как аналогию компании. У вас есть служащие низшего звена, те, кто делает черную работу — вы даете им входные данные, все они идут к каждому из менеджеров — и каждый менеджер делает расчет по тому делу, за которое он отвечает, и она идет к своему большому босс и дает свою продукцию в соответствии с их полем. А затем большой босс делает свои расчеты и принимает окончательное решение.

Теперь предположим, что ваши данные — это изображения животных, и вы подходите к двери компании, стучите в дверь и отдаете человеку в дверях изображение. Входные данные этого изображения — его пиксели, сведенные — теперь это длинный ряд пикселей. Каждый из рабочих держит пиксель. Они идут к своим начальникам — каждый отвечает за поиск своей части. Один отвечает за нос, один за рот, по одному за каждый глаз и т. д. Все пиксели проходят через всех супервайзеров (нейронов). Наблюдатель за носом находит пиксели, которые могут быть носом, а наблюдатель за правым глазом находит пиксели, которые могут быть правым глазом, и они должны быть уверены более чем на 70% (логистическая регрессия работает со взвешенной суммой, все меньше 50%). это нет). После того, как каждый руководитель принял решение, все они идут к большому боссу и сообщают ей о своих решениях. И тогда большой босс принимает решение о выходе.

Вот несколько примеров рта, глаз и носа собаки.

Надеюсь, после того, как вы обучите свою модель, она не будет делать что-то подобное:

Он распознает кошку как собаку.

Умная маркировка

Первый шаг в обучении с учителем — это помеченные данные. Я не знаю, маркировали ли вы когда-нибудь данные самостоятельно — это чрезвычайно тяжелая и утомительная работа — если вы платите кому-то за маркировку ваших данных — платите им больше. Они стоят каждой копейки.

Интуитивное введение в активное обучение.

Пассивное машинное обучение выглядит так:

Процесс маркировки является дорогостоящим и трудоемким.

Помимо контролируемого и неконтролируемого, есть еще одна область машинного обучения, полуконтролируемая. Это означает, что ваши данные только частично помечены тегами, поэтому вы обучаете свою модель на частично помеченных данных и прогнозируете метки остальных — это называется псевдомаркировкой. Активное обучение использует подход «человек в цикле» в процессе машинного обучения. Он инициирует более быструю, дешевую и эффективную маркировку.

Активное обучение похоже на полуконтролируемый процесс обучения: модель обучается на ваших частично размеченных данных и предсказывает метки остальных — псевдомаркировка. Разница в том, что активный ученик дает ярлыки, в которых у него мало уверенности для человеческих ярлыков. Процесс повторяющийся.

Эта область называется активным обучением. И вот как это выглядит:

Вот еще один пример процесса, но с кошками — вы даете своей машине какие-то размеченные данные, и машина просит вас пометить элементы, которым исходных данных не хватило для ее классификации.

Нет ярлыков-нет данных

Интуитивное введение в обучение с подкреплением.

Представьте себе, что нет ни ярлыков, ни данных — есть среда — например, фондовый рынок, и вознаграждение — рост портфеля акций или наказание — потеря денег. Эту проблему можно решить с помощью обучения с подкреплением, когда система изучает поведение рынка посредством наблюдения.

Более подходящим примером использования обучения с подкреплением является игрок в видеоигры, где у вас есть только игрок и правила окружающей среды - игрок не запрограммирован, как играть, а скорее учится путем наблюдения, проб и ошибок.

Как далеко это может зайти? Вы слышали о DeepMind? Альфа идет? Альфа идет ноль? Вы можете посмотреть эти два коротких видео.

Как видно, для обучения с подкреплением не требуются данные, в отличие от других форм машинного обучения.

Резюме конвейера науки о данных:

Хотя эта статья охватывает множество идей на высоком уровне, ее цель — посеять семена направлений, в которых вы, возможно, захотите двигаться в своем первом или следующем проекте данных.

Этот пост в блоге является первой частью лекции, прочитанной в сентябре 2020 года. Он был подготовлен параллельно с лекцией в качестве письменного сопровождения. Пожалуйста, перейдите по этой ссылке для тех, кто хотел бы просмотреть запись лекции. Кроме того, слайды, использованные во время лекции, можно найти в связанном репозитории GitHub.