Это краткий обзор того, что я узнал на курсе Машинное обучение для бизнес-профессионалов на Coursera. Если вы хотите понять основы до ажиотажа, настоятельно рекомендуется пройти курс здесь (самое приятное: регистрация бесплатна в течение ограниченного времени).

(Я всегда стремлюсь к совершенствованию, поэтому свяжитесь со мной, если считаете, что какие-то части можно улучшить.)

Что такое машинное обучение ("ML")?

Google определяет машинное обучение как способ использования стандартных алгоритмов для получения прогнозной информации из данных и принятия повторяющихся решений. ML — это ответвление искусственного интеллекта («ИИ»), поэтому, когда компания говорит, что они внедряют ML и AI, попросите внести ясность, поскольку эти две вещи несопоставимы.

Кто определяет «повторяющиеся решения»: может быть кто угодно, но в идеале аналитик данных, который создает информационные панели и создает отчеты для поддержки принятия решений. Этот человек проанализировал вручную несколько раз и узнал, что это решение, которое ваш бизнес обычно принимает.

MLV. Традиционная аналитика: в чем отличие?

Традиционная аналитика основана на нескольких функциях и в основном на предопределенной логике, основанной на правилах (если X — это это, то Y — это то). Традиционная аналитика дает простые рекомендации и по-прежнему может решать проблемы (или их часть), но упускает возможности обслуживать длинный хвост (короче говоря: ранее неиспользованный спрос. Подробнее о длинном хвосте здесь).

ML: начал с размеченных данных, учился на исторических примерах, а затем делал прогноз, который нельзя было вывести из видимой логики. Например:

  • модель на веб-сайте электронной коммерции узнает из истории, что клиенты, которые нажимают на этот элемент, с большей вероятностью нажимают на гораздо больше элементов и совершают покупку после 5-го клика.
  • модель учится на опыте, что идентификаторы клиентов из этой географической области с большей вероятностью воспользуются преимуществами бесплатных пробных версий, не превращаясь в платных пользователей по окончании пробных версий.

Это наблюдения (а не предопределенная логика), на основе которых модели научились делать прогнозы.

Чего ожидать, когда компании заявляют, что внедряют машинное обучение в своей работе?

Во время прохождения курса Coursera мне поручили обучить некоторые модели на Google Cloud Platform (спасибо Qwiklabs!), не зная ни строчки кода:

  • Обучил чат-бота делать заказы на пиццу с помощью Dialogflow (SaaS для обработки естественного языка).
  • Обучил модель машинного обучения классификации изображений с помощью AutoML Vision.
  • Прогнозирование покупок посетителей из набора данных электронной коммерции с помощью машинного обучения BigQuery

Мои наблюдения:

  • Вам не нужны специалисты по машинному обучению для обучения модели. Существует несколько стандартных алгоритмов, которые можно выбрать из облачного механизма машинного обучения, который может обрабатывать как обучение модели, так и ее развертывание. Отсюда и название: машинное обучение как услуга.
  • Вам не нужны специалисты по машинному обучению для наиболее распространенных случаев использования в бизнесе. Вы можете просто повысить квалификацию своего существующего ИТ-персонала или аналитиков данных, потому что становится проще создавать или повторно использовать распространенные модели машинного обучения. Важно то, что у них есть эксперт в предметной области.

Смысл?

«Побеждает не тот, у кого лучший алгоритм, а тот, у кого больше всего данных», — Эндрю Нг.

Меня очень удивил тот факт, что самый тщательно охраняемый секрет в исследованиях машинного обучения заключается в том, что большинство улучшений точности происходит благодаря более качественным данным. Конечно же, со временем у людей возникает соблазн создавать новые алгоритмы, но говорят, что улучшения несущественны.

Одна из самых сложных частей — правильно поставить цель, поэтому вы знаете:

  • какая модель нужна и
  • какой стандартный алгоритм вы выберете для работы

Затем наступает вторая по сложности часть — сбор качественных данных (данные, которые являются чистыми, полным покрытием и завершенными).

После того, как вы получили алгоритм и правильно разметили данные, вы обучили свою модель, которая получила высокий средний показатель точности. Готово? Не совсем, важно, насколько хорошо эта модель работает в реальной жизни для решения проблемы? (Здесь, чтобы понять, как медицинский ИИ Google работает в лаборатории и в реальной жизни). Вот почему вам необходимо быстро развертывать модели в качестве пилотных проектов и повторять модели на основе отзывов пользователей.

Когда все сказано и сделано, что с того?

Если компания утверждает, что внедряет машинное обучение, что является хорошей новостью, поскольку машинное обучение, в конце концов, не является чем-то элитарным, вот несколько вопросов, которые я, возможно, задам:

  1. Модель:
  • Каковы цели модели?
  • Это единичная модель или ML в серии? Если есть серия ML, какая архитектура решения для обработки большого объема данных в условиях ограниченного времени?
  • Насколько хороша модель в (i) оценочных данных (данных, которые ваша модель не видела) и (ii) в реальной жизни?
  • Компания владеет моделью? Или они передают модель другим компаниям?

2. Алгоритм:

  • Над каким стандартным алгоритмом они работают?
  • Они запускают алгоритм локально или в общедоступном облаке?
  • Если они используют общедоступное облако, какую услугу машинного обучения они используют? (Google: Cloud ML Engine, AWS: SageMaker, Azure: служба машинного обучения Azure)

3. Данные:

  • У них уже есть хранилище данных?

«Хранилище данных, в котором данные со всей организации собираются таким образом, чтобы их можно было объединить, является необходимым условием для создания модели машинного обучения».

  • Как они помечают свои данные? Есть 3 популярных способа сделать это, и они сильно различаются по стоимости: (i) использовать прокси-лейбл, (ii) использовать службу маркировки (Здесь для маркировки человеком в Китае) и (iii ) создайте умную систему маркировки (здесь нужны таланты).

Маркировка данных – это ключевой фактор успеха, поскольку чем больше у вас неправильных данных, тем больше правильных данных вам нужно будет предоставить, чтобы уравновесить модель машинного обучения, чтобы она не узнала что-то не то.

  • Каковы стратегии сбора новых данных? Преимущества ML будут лучше всего реализованы, если они будут работать с данными в реальном времени.

4. Люди:

  • Каковы ваши планы по созданию компетентной команды специалистов по данным? Нанимаете с нуля или повышаете квалификацию ваших существующих людей?
  • Каковы ваши критерии при найме инженеров по машинному обучению?

«Нанимайте людей, которые являются сильными программистами, которые в основном будут повторно использовать существующие фреймворки и библиотеки, но которых устраивает двусмысленность, присущая науке о данных. Потому что многим программистам нравятся детерминированные вещи, но модели машинного обучения никогда не бывают идеальными. Часто это эксперимент».

Но разве я не отмечал ранее, что компаниям не нужны специалисты по машинному обучению для начала? Да, но если у вас есть ресурсы, которые можно потратить, почему бы не потратить их с умом на команду специалистов по обработке и анализу данных по мере масштабирования вашего бизнеса. и вы узнаете его ограничения.

Что еще ты собираешься спросить?