Прекратите использовать простую кнопку машинного обучения

То, что вы знакомы с машинным обучением, не означает, что вы должны применять его к каждой проблеме.

С появлением МООК по машинному обучению и удешевлением вычислительной мощности энтузиастам данных становится намного проще исследовать глубины машинного обучения и инструментария для анализа данных. Добавьте в популярные новости непрерывных историй успеха, связанных с машинным обучением, и у специалистов по обработке данных появится аппетит к науке о данных. Прежде чем я продолжу, я должен прояснить ситуацию: я считаю, что растущее количество специалистов по данным-самоучкам в целом является феноменальным достижением в области науки о данных. Это приведет только к прогрессу в будущем по мере того, как будет задействовано больше людей. Я сосредоточился на тех моделях, которые практически скопированы с онлайн-курса, который вы только что прошли.

«Дайте маленькому мальчику молоток, и он обнаружит, что все, с чем он сталкивается, требует ударов». Неудивительно, что ученый формулирует проблемы таким образом, чтобы для их решения использовались только эти методы. в чем он сам особенно искусен ». - Авраам Каплан

Тот факт, что вы изучили TensorFlow, не означает, что следующий проект, над которым вы работаете, потребует 12-слойной нейронной сети. Повышенный интерес к машинному обучению, искусственному интеллекту и всем остальным модным словам в области науки о данных из новостей часто набирает обороты в деловом мире; особенно в крупных корпорациях. Он пропагандирует чувство: «Если я не буду использовать машинное обучение, моя компания останется в пыли». Соедините это с аналитиками, которые теперь изучают способы создания моделей глубокого обучения с помощью нескольких строк кода Python, и мы быстро забываем основы старого доброго анализа.

Красиво представленный PowerPoint, охватывающий новейшую нейронную сеть, дерево решений или регрессионную модель, созданную аналитиком, не дает уверенности в полезности модели. По какой-то причине, кажется, есть чувство доверия к моделям, созданным машиной, по сравнению с моделями, созданными человеком, независимо от их производительности, по крайней мере, в деловом мире.

Для потребителя приятно знать, что этот веб-сайт узнает, что вам нравится, и даст соответствующие рекомендации на основе ваших отзывов. Звучит фантастически! Не имеет значения, что модель рекомендует «Крестного отца», даже если вы смотрели только «Офис», «Парки и рек» и «Рено 911». Модель знает вас, она учится, она просто допустила милую ошибку… верно?

Какие последствия?

Сегодня менеджеры и руководители большинства корпораций часто знают о машинном обучении достаточно, чтобы следить за ходом потрясающей презентации, но редко обладают способностью распознать плохую модель. Это не выстрел против руководства. Их наняли не для оценки моделей, а для оценки людей. Они знают, что Джонсон - качественный аналитик, у него самые лучшие намерения, черт возьми, он даже проходил курсы машинного обучения на Coursera!

Факту, что модель существует, уделяется больше внимания, чем тому, что она производит. Очевидно, что это обобщение, которое не применимо к отраслям, более склонным к техническому развитию. Тем не менее, бизнесу гораздо легче увидеть пагубные последствия плохой нейронной сети, которая не может выявить производственные дефекты, чем неверно классифицировать настроения клиентов. Конечно, мы достигли 82% точности во время тестирования, и когда мы очистили результаты, все согласились, что все в порядке. Но как только модель будет запущена в производство, какая компания будет тратить время или деньги, чтобы следить за ней?

Пока он по-прежнему дает результаты, другому сотруднику приходится меньше ручной работы. Вдобавок ко всему, вероятно, появятся какие-то новые KPI, отслеживающие объем, который модель выплевывает так естественно, что все идет отлично. Давайте предложим Джонсону следующую инициативу, он отлично справляется!

В чем проблема? Что-то лучше, чем ничего.

Я часто нахожу, что эти модели в конечном итоге устанавливают зависимость или служат базой для бизнес-процесса. В конечном итоге это заставляет сотрудников отказываться от ручной работы, которая на самом деле была более эффективной, хотя, вероятно, и более ограниченной по объему. Да, машина сейчас сканирует 1000 событий, и мне нужно просмотреть только 5, которые она выплевывает, тогда как раньше я вручную просматривал 30 случаев. Звучит как фантастическое улучшение, не так ли?

Неправильный.

Если ваш ручной процесс был горячим мусором, а модель немного круче мусора, тогда ладно, может быть, так лучше. Скорее всего, ваш ручной процесс действительно был достаточно эффективным при выявлении искомых вариантов использования. Кроме того, вы будете гораздо лучше знакомы с выходными данными, процессом и возможностями. Каждый неверный вариант использования, который вы рассматриваете, означает потерю времени, и, как правило, люди не любят тратить свое время на бессмысленные задачи. Это приводит к небольшой оптимизации ручного процесса с течением времени и к более конкретному и точному процессу по сравнению с общей моделью машинного обучения.

Опять же, я сосредоточен на моделях «легкая кнопка», которые поступают в производство. Модели, которым уделяется надлежащее время, ресурсы, контроль и нацелены на решение правильной проблемы, почти всегда превосходят ручной человеческий процесс. Однако, поскольку уход от ручного труда в крупных компаниях часто происходит постепенно, редко можно указать на саму модель или разработчика. Вместо этого руководство может увидеть снижение производительности и искать новую модель, которая поможет решить то, что кажется новой бизнес-проблемой. Продолжая цикл, мы надеемся, что следующая модель сможет извлечь хотя бы некоторые уроки из первой.

Итак, что с этим можно сделать?

Будьте критичны.

Убедитесь, что для решения этой новой задачи действительно можно использовать машинное обучение. Если да, то обязательно попробуйте, но критически относитесь к результатам. Если это выглядит не очень хорошо, знайте, что вы пробовали и, вероятно, чему-то научились в процессе. В противном случае не забывайте о базовом анализе.

Сводные таблицы получили плохую репутацию с ростом больших данных, но давайте будем правдой - критически важные бизнес-процессы все еще выполняются, и, если они выполнены правильно, они могут быть более информативными, чем большинство моделей машинного обучения.

Итак, подсчет и сумма продаж не повлияют на новые действия, но вы просто попытались придумать новые функции для своей модной новой модели, верно? Давай засадим этих щенков и начнем осматриваться. Да, я понимаю, это предварительный анализ. Результаты исследовательского анализа часто гораздо более информативны и полезны, чем создание Jupyter Notebook, в котором предпринимаются попытки регрессии и некоррелированных переменных.

Как бы медленно люди ни сравнивались с машинами, мы можем очень легко увидеть, что функция 1, кажется, действительно не работает в измерении B. Следуйте по этой нити через более подробное исследование, и вы с большей вероятностью обнаружите фактическую причину проблемы, а не чем реализация модели, которая поможет вам смягчить проблему.

В итоге

МООК - это здорово, больше людей изучают науку о данных - это здорово, но не каждый, кто проходит курс, должен продвигать модели в производство.
То, что модель живая, не означает, что она всегда лучше, чем ручной процесс старой школы.
Не пытайтесь разработать модель машинного обучения для решения проблемы, которую можно решить с помощью фундаментального / исследовательского анализа.
Если модель актуальна, критически относитесь к результатам и соглашайтесь с тем, что иногда она не дает значимых результатов. Считается, что наука о данных заходит в тупик, если вы их не нашли, значит, вы делаете это неправильно.

Прекратите использовать простую кнопку машинного обучения