Примечание редактора: обязательно ознакомьтесь с докладом Алекса на ODSC West 2019 в ноябре этого года: Последний рубеж машинного обучения - борьба с данными.

До 95% времени специалиста по обработке данных тратится на обработку данных. И наоборот, около 99% специалистов по обработке данных ненавидят споры о данных. Это проблематично.

Обработка данных, как правило, является наиболее избыточным и утомительным процессом, связанным с построением моделей машинного обучения (ML). Создание модели машинного обучения состоит из четырех этапов: обработка данных, очистка данных, разработка функций и, наконец, выбор модели. Тем не менее, многие платформы автоматизации машинного обучения полностью игнорируют первые три шага (обработка данных) процесса построения модели и сосредотачиваются на выборе модели. Выбор модели обычно включает итерацию по сотням моделей, чтобы найти модель и набор гиперпараметров модели, которые оптимально отражают распределение данных. К сожалению, если у вас есть хорошо отформатированный, очищенный и снабженный характеристиками набор данных, выбор модели становится довольно академической задачей.

Так почему бы не создать решения, которые помогут автоматизировать обработку данных для специалистов по данным? На то есть веская причина. Это действительно трудно.

В этом сообщении в блоге мы начинаем заниматься этой большой энчиладой автоматизации обработки данных. Мы начнем с того, что черпаем вдохновение из одного шага процесса обработки данных: разработки функций.

Обнаружение функций в компьютерном зрении

Во время моей докторской диссертации я работал над созданием моделей машинного обучения, чтобы изучать представления категорий объектов. Борьба с данными, в частности разработка функций, играла чрезмерно важную роль во всей моей работе и была решающим фактором в достижении высокой производительности модели, необходимой для участия в конференциях по компьютерному зрению высшего уровня (и, в конечном итоге, в том, что я получил диплом). Разработка функций при распознавании объектов принимает форму обнаружения интересных частей изображения на основе сложных изменений градиентов (см. Рисунок 1). «Детектор особенностей» обнаруживает эти интересные части изображения. К сожалению, я и все остальные, работавшие над распознаванием объектов в то время, никогда не были уверены, какой детектор признаков использовать и с каким разрешением (разрешениями) применять этот детектор признаков. Это было черное искусство. Что мы в итоге сделали? Перебираем и пробуем десятки детекторов признаков на изображениях и выбираем тот, который лучше всего подходит для конкретной проблемы. Грубая сила.

Рисунок 1: Пример детекторов функции SIFT на общем изображении. SIFT был одним из самых горячих отказников во время моей докторской диссертации. Я бы буквально запускал десятки детекторов признаков на изображениях, чтобы добиться максимальной производительности.

Механическая и итеративная задача по тестированию различных детекторов функций дала нам идею, когда мы подошли к проблеме разработки функций в более широком контексте проблем машинного обучения в Vidora. Можем ли мы создать структуру для автоматизации этих процессов и освободить специалистов по данным от повседневной рутинной работы, связанной с обработкой данных?

Конвейер машинного обучения

Рис. 2. Конвейер машинного обучения автоматизирует обработку данных и позволяет создавать модели из необработанных данных.

Конвейер машинного обучения - это центральный каркас решения Vidora. Конвейер машинного обучения разделен на четыре шага, представленных ранее. Каждый из этих шагов состоит из большого количества отдельных модулей, которые выполняют разные функции и могут использоваться для любой конкретной проблемы машинного обучения.

Давайте снова обратимся к проектированию функций. Возможные модули разработки функций для проблем машинного обучения, ориентированные на прогнозирование поведения клиентов, включают:

  • Суммирование событий клиентов за указанный период времени
  • Глядя на изменения в активности клиентов
  • Последовательность клиентских событий

На самом деле существует бесконечное количество возможностей различных методов проектирования функций. Vidora поддерживает репозиторий, описывающий различные методы разработки функций для проблем машинного обучения и их относительную эффективность. Специалисты по обработке данных, как правило, имеют сильную интуицию относительно того, какой метод использовать для той или иной проблемы. Что делает конвейер машинного обучения, так это автоматизирует задачу выбора методов разработки функций для использования посредством комбинации (а) умного поиска в пространстве техник разработки функций - так же, как я искал в пространстве детекторов функций во время моей докторской и (b ) изучение того, какие методы проектирования функций хорошо зарекомендовали себя в прошлом на аналогичных наборах данных. Последнее на самом деле является формой метаобучения, которое является и будет все более активным пространством исследований в сообществе машинного обучения.

Во время предстоящего выступления на ODSC West Conference в октябре мы более глубоко погрузимся в конвейер машинного обучения и методы для умного поиска и изучения того, какие методы обработки данных следует использовать для той или иной конкретной проблемы машинного обучения. И все это в титанических усилиях, направленных на то, чтобы помочь решить проклятие специалистов по обработке данных во всем мире: споры о данных.

О Видоре

Vidora позволяет любому человеку в любом бизнесе создавать конвейеры непрерывного машинного обучения. Благодаря платформе самообслуживания Vidora, Cortex, машинное обучение становится интуитивно понятным, интерпретируемым и быстрым, автоматизируя весь конвейер машинного обучения от необработанных данных до выходных данных модели. Компания Cortex, разработанная экспертами в области машинного обучения и искусственного интеллекта из Стэнфорда, Беркли и Калифорнийского технологического института, находится в центре ряда крупнейших мировых брендов, таких как Walmart, News Corp и Discovery. Узнайте больше на www.vidora.com

Примечание редактора: обязательно ознакомьтесь с докладом Алекса на ODSC West 2019 в ноябре этого года: Последний рубеж машинного обучения - борьба с данными.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.