Машинное обучение имеет встроенный пробел в возможностях. Моста через него нет.

Я работаю специалистом по обработке и анализу данных более десяти лет, большую часть этого времени я тратил на обучение, тестирование и калибровку моделей машинного обучения для решения конкретных бизнес-задач в различных масштабах. Я много занимался проектированием данных и управлением продуктами данных, а также множеством простых аналитиков в стиле бизнес-аналитики, но больше всего на свете я занимался машинным обучением.

Я пришел к выводу: машинное обучение — это тупиковый путь. Я не имею в виду, что машинное обучение не стоит делать. Машинное обучение было и будет полезным. У предприятий, которые его не используют, все еще есть много способов извлечь из него пользу, но я убежден, что предприятия, которые уже используют его, очень скоро увидят плато в этих преимуществах, если они уже этого не сделали. И инвесторы начинают это замечать.

Такова цена тупика: вы достигаете точки, где пребывание на дороге перестает приближать вас к месту назначения. Машинное обучение делает много полезных вещей, но не то, что действительно нужно большинству предприятий.

Увлекательная математика, скучные результаты

Молли Сотер писала о машинном обучении как о системах памяти, из которых она выделяет три:

  • «Интеллектуальный текст, эти системы, скрытые в клавиатуре вашего телефона, которые подталкивают вас называть своего папу «пуки», потому что так вы называете свою девушку»;
  • «Базы данных воспоминаний, такие как Facebook Memories или Timehop»;
  • «Двойники данных, созданные для таргетинга рекламы, ответственные за те носки, которые следуют за вами по всему Интернету даже после того, как вы купили шесть пар».

Итак, у нас есть системы, которые предсказывают следующий шаг в последовательности на основе других предпринятых шагов, отмечают определенные прошлые шаги в последовательности как важные в настоящем и рекомендуют следующий шаг на основе прошлых шагов. Заутер заключает:

Каждый из них по-своему взаимодействует с собираемыми данными, представляя их, чтобы направлять или подталкивать вас в соответствии с разными моделями. Но суть этих моделей, их фундаментальную общую стратегию можно свести к следующему: «Те, чье прошлое понятно, будут призваны повторить его».

Все машинное обучение предполагает, что (1) будущее будет таким же, как прошлое, и (2) то, что произошло в прошлом, более или менее соответствует тому, что мы хотим видеть в будущем. Кори Доктороу резюмирует аргумент Сотера: Машинное обучение по своей сути консервативно и ненавидит изменения.

Руководители, инвесторы или все, кто связан с бизнесом, не часто спрашивают: «Как мы можем обеспечить действительно консервативные темпы роста?» Люди обычно более амбициозны, чем машинное обучение. Во многих случаях существует фундаментальное несоответствие между тем, что делает инструмент, и тем, чего на самом деле хотят достичь его пользователи.

Со временем бизнес, который нанимает группу специалистов по данным для поддержки машинного обучения, увидит, что дополнительная ценность, которую предлагают эти специалисты по данным, снижается, потому что не так много вещей, которые нуждаются в машинном обучении. Если вы не входите в число действительно крупных технологических компаний, быстро и непрерывно внедряющих новые продукты и возможности, вы дойдете до конца пути, но сохраните двигатель в рабочем состоянии. Добавленная стоимость машинного обучения стабилизировалась, но невозвратные затраты и отсутствие альтернатив заставляют компании инвестировать. Это может быть одной из причин, по которой многие компании постоянно испытывают проблемы с сохранением своих специалистов по данным: у них заканчиваются интересные вещи, над которыми могут работать их специалисты по данным.

Эффективность важнее точности

Я убежден, что большинство людей, говорящих о ценности машинного обучения, — даже те, кто на самом деле занимается машинным обучением, — упускают из виду его основную ценность. Машинное обучение высвобождает время людей, автоматизируя то, что компьютеры могут делать примерно так же хорошо, как и люди.

Большинство людей знают, каково это иметь 10 дел в списке дел, но времени достаточно, чтобы по-настоящему хорошо выполнить 2 из них. Когда вы знаете, что у вас будет возможность обратить внимание — не говоря уже о принятии решения — только на 2 из 10 важных вещей, становится трудно решить, что больше всего заслуживает вашего внимания. В конечном итоге вы делегируете несколько вещей (а эти вещи часто делегируются повторно), а затем выбираете две вещи, которые привлекают ваше внимание, исходя из того, насколько легко выполнять работу, или насколько они вам знакомы, а иногда просто на вашем внутреннем чувстве о том, что вы должны делать. Я не придираюсь к этому — это то, что люди делают уже очень давно. Мы все это делаем.

Но допустим, пять из этих 10 решений поддаются машинному обучению: у вас есть исторические данные, связывающие атрибуты с результатами, и вы были бы довольны просто сохранением результатов, которые вы видели ранее — бонусные баллы, если вы видите скромный рост. Вы могли бы даже захотеть увидеть небольшое снижение этих результатов, если бы это означало, что за ваше внимание борются только пять вещей вместо 10. Машинное обучение может оказать реальное, существенное влияние на ваш бизнес, и все, что ему нужно сделать, будет, очевидно, намного хуже, чем когда это делает кучка переутомленных людей.

Машинное обучение добавляет еще больше ценности, позволяя регистрировать детали процесса, чтобы сделать процесс доступным для аудита. Если человеческий процесс не работает должным образом, вы должны заказать исследование или, по крайней мере, попытаться поговорить со всеми участниками, чтобы выяснить, что не так. Если процесс машинного обучения не работает должным образом, достаточно компетентный инженер может открыть журналы и найти, что нужно изменить. Таким образом, машинное обучение экономит человеческое внимание и усилия во многих отношениях.

Эти преимущества не связаны с наукой о данных или машинным обучением. Они исходят от инженерии. Насколько я понимаю, между инженерией и наукой о данных нет четкой границы, но мне показалось удобным провести черту между процессами и решениями. Если автоматизировать процесс — скажем, перемещение данных из одного места в другое — я обнаружил, что людям обычно нужен инженер. Если вы автоматизируете решение — у вас есть данные в одном месте, и вы должны выбрать, в какое из трех мест их переместить — иногда помогает специалист по обработке и анализу данных.

Это разделение исчезает. Такие компании, как DataRobot, уже внедрили большую часть этой автоматизации принятия решений. Еще предстоит пройти некоторое расстояние — в частности, я вижу, что эти решения терпят неудачу для предприятий, которые не знают, что делать с отсутствующими данными или высокой размерностью, — но это не непреодолимые препятствия. Машинное обучение все чаще становится еще одной инженерной проблемой. Инженерия без машинного обучения решила множество бизнес-проблем, но не решила их все, что является одной из причин, по которой машинное обучение получило такое широкое распространение. Машинное обучение сейчас находится там, где инженерия была до того, как появилось машинное обучение. Его полезность очень очевидна, но также, по-видимому, сужается.

Альтернативный маршрут

Эксперименты — это не тупиковый путь, как машинное обучение. Я понимаю, если вы не хотите верить этому утверждению: возможно, мы просто ближе к пределам полезности машинного обучения, чем к экспериментам. Это разумное сомнение. Я думаю, что есть несколько причин, по которым эксперименты приводят бизнес к желаемому:

  • Эксперименты творят историю, а машинное обучение просто повторяет ее. Экспериментирование — это процесс генерации данных: любой эксперимент дает информацию, которой раньше не существовало. Эти данные можно структурировать, накапливать и анализировать так же, как и любые другие данные. И это данные о реальном поведении, а не мнения, предполагаемые действия, экстраполяции панели или агрегированные данные по географии. Реальные решения принимают настоящие люди.
  • Экспериментирование так же разрушительно, как машинное обучение консервативно — оно не может понять ничего, чего не видело раньше. Это резко ограничивает его применение, независимо от того, насколько точна модель. (Кстати, это также позволяет очень легко разрушить ту ценность, которую может предложить машинное обучение). Эксперименты — это единственный способ для бизнеса попробовать что-то совершенно новое, основанное на данных.
  • Экспериментирование имеет дело непосредственно с риском, а не только с вероятностью. Машинное обучение говорит: «Вот знания, которые могут нам помочь». Может быть, это дает вам оценку, чтобы сказать вам, насколько модель уверена, что эта информация поможет. Экспериментирование — единственный способ сказать: «Вот знание, которое определенно помогло нам или не помогло».

У машинного обучения есть одна вещь, которой явно нет у экспериментов: чрезмерные затраты на вычисления и инфраструктуру. В частности, самые передовые варианты машинного обучения для глубокого обучения требуют для работы специализированного оборудования и огромных ресурсов. Для обучения Google AmoebaNet потребовалось 450 графических процессоров K40 за 7 дней (это 3150 графических дней). У большинства компаний нет таких ресурсов. Тем более они им не нужны. Эксперимент стоит меньше и предлагает большую и более надежную ценность.

Экспериментирование — это гораздо больше, чем A/B-тесты. A/B-тесты для экспериментов — это то же самое, что логистическая регрессия для машинного обучения: вы можете использовать их, и многие люди так и делают, но невероятно легко использовать их неправильно, потому что они скармливают вам мусорные результаты. Экспериментирование действительно может дать надежную ценность, которая не стабилизируется только тогда, когда она обусловлена, непрерывна и связана.

  • Условно. Если вы просто разделите своих пользователей на две группы, назначите разные методы для каждой группы и сравните ответы между группами, ваш эксперимент, вероятно, будет лгать вам. Вам нужно определить важные различия в наборе пользователей (что-то гораздо более тонкое, чем сегментация) и назначить лечение на основе этих различий. И затем вам нужно использовать это условие, чтобы скорректировать свои результаты. (Подробнее см. здесь.)
  • Непрерывно. Если вам нужно управлять логистикой экспериментов и контролем качества каждого эксперимента, вы не получите многого от своих экспериментов — они просто отнимут слишком много внимания. Точно так же, если человек должен решить, как использовать результаты эксперимента или управлять логистикой и контролем качества, это потребует слишком много усилий, чтобы быть жизнеспособным. Экспериментирование — это такая же операционная возможность, а может быть, и более, чем исследовательская. Прошлые эксперименты должны быть преобразованы в следующие эксперименты без участия человека.
  • На связи. Применяйте результаты небольших экспериментов ко всей клиентской базе: учитесь на нескольких, но принимайте решения обо всех. Затем объедините результаты экспериментов в индексы клиентов для более широкой ценности. Добавьте новое сообщение, предложение или креатив и начните автоматически генерировать информацию о нем. Бизнес-задачи должны быть преобразованы в эксперименты. Это не касается генерирования знаний. Речь идет о том, чтобы дать вашему бизнесу новую основу для действий.

Переход от машинного обучения к экспериментам

Конечно, предприятия не должны отказываться от машинного обучения и вместо этого заниматься экспериментами. Это не взаимоисключающие варианты. На самом деле, машинное обучение может быть чрезвычайно полезным при интерпретации и обработке экспериментальных результатов. Но ценность машинного обучения со временем снижается: если ваш бизнес использует машинное обучение, а вы еще не видели такого сокращения, вы его увидите.

Это еще один пример того, что эксперименты могут сделать, чего не может машинное обучение, как указывает Эрик Рис:

Всякий раз, когда вы не знаете, что делать, попробуйте что-нибудь маленькое наугад и посмотрите, улучшит ли это ситуацию. Если это так, продолжайте делать это чаще, а если нет, попробуйте что-нибудь еще случайное и начните сначала. Представьте, что вы поднимаетесь таким образом на холм; это будет работать с закрытыми глазами. Просто продолжайте искать все более и более высокую местность и немного поворачивайтесь, когда чувствуете, что идете вниз. Но что, если вы поднимаетесь на холм перед горой? Когда вы добираетесь до вершины холма, вы не можете сделать маленький шаг, который выведет вас на правильный путь в гору. Это локальный максимум. Все методы оптимизации застревают на этом месте.

Машинное обучение имеет встроенный пробел в возможностях. Моста через него нет. Обусловленное, непрерывное и связанное экспериментирование — альтернативный путь.

Узнайте больше на aampe.co.