Используйте 7 простых вопросов, чтобы найти возможности машинного обучения, даже без каких-либо технических знаний

Машинное обучение, искусственный интеллект, наука о данных - все они несут в себе множество пугающих и сложных концепций, таких как глубокие нейронные сети, кросс-энтропия, оптимизация ...

Достаточно страшных слов, чтобы отпугнуть любого менеджера по продукту, но действительно технически подкованных людей даже думать об интеграции машинного обучения в свои продукты.

Но это, в свою очередь, затрудняет компании возможность извлечь всю пользу из своих инженеров по машинному обучению, если большинство менеджеров по продуктам уклоняются от их найма.

Мне нравится использовать совершенно простой контрольный список, который, на мой взгляд, может использовать любой нетехнический менеджер по продукту , чтобы определить, есть ли возможность для бизнеса поддается машинному обучению или нет.

Я объясню каждый пункт на примерах ниже. Но сначала вот полный контрольный список.

Контрольный список возможностей машинного обучения

Если я вижу что-то, что связано с данными и похоже на машинное обучение или статистику / оптимизацию, я продолжаю и задаю себе четыре вопроса.

Что дает возможность машинного обучения?

  1. Считаются ли небольшие улучшения? Окупается ли ваша возможность, когда что-то увеличивается на ‹10%?
  2. Включает ли это «всегда одно и то же»? Кто-то должен делать одно и то же снова и снова? Прорабатывает ли машина длинные операторы «если-то»? Существуют ли ручные обходные пути для отказов машины «если-то»?
  3. Нужны ли для этой возможности экспертные знания? Нужна ли возможность персонализации?
  4. Возможны ли проблемы с масштабированием из-за ручных трудностей? Данные, стоящие за этим, растут в геометрической прогрессии?

Одного "да" достаточно, чтобы определить возможность!

Но вот загвоздка: у некоторых из этих возможностей есть какой-то отвратительный атрибут, который делает их абсолютно непригодными для науки о данных. Мне нравится думать, что первые вопросы приносят мне «яблоки». А следующие четыре вопроса помогут мне отбросить «плохие яблоки». Итак, я продолжаю задавать эти три вопроса.

Что мешает машинному обучению?

  1. Вам нужна точность 99% или 100%? Это должно быть очень точно?
  2. Можно ли решить проблему с помощью простого «если-то»?
  3. Есть только небольшой объем данных? Или любые другие проблемы с данными, например, проблемы с конфиденциальностью?

Одного "нет" уже достаточно, чтобы определить плохое яблоко!

Создатели возможностей машинного обучения в деталях

Давайте рассмотрим их шаг за шагом с примерами.

(1) Считаются ли небольшие улучшения?

Небольшие улучшения обычно имеют ценность для бизнеса, когда возможность близка к некой «конверсии». Близко к какому-нибудь ключевому метрическому событию «Полярная звезда» или тому подобному. Небольшие улучшения имеют значение, если они по-прежнему имеют большое значение для бизнеса.

Например, метрика YouTube North Star в течение некоторого времени была «минутами просмотра видео». Таким образом, любое улучшение на 1–10% в системе рекомендаций, которая рекомендует новые видео, приводит к прямому увеличению показателя «Полярная звезда»; поэтому все близкие к этому улучшения относятся к возможностям машинного обучения.

Другой пример, который может придумать почти любая компания, - это оптимизация маржи, все, что вы добавляете к тому, что вы продаете, сверх реальной цены производства. Любой небольшой повышенный процент приносит немалые деньги.

(2) Включает ли это «всегда одно и то же»?

Вещи, в которых задействовано «всегда одно и то же», обычно открывают возможности, которые решаются с помощью простых моделей машинного обучения.

Простые модели машинного обучения - это модели, которые не идеальны, но точны только на 80%. Идея этого вопроса заключается в том, что это обычно в 10 раз проще, чем модель с точностью 90%. И да, я знаю, что точность - отстойный показатель, но я надеюсь, что в этом есть смысл.

Кроме того, вещи, которые включают «всегда одно и то же», также дают данные, которые отчаянно необходимы для обучения любой модели.

Почти классический пример - сортировка писем клиентов. Электронные письма клиентов обычно сортируются в группу «стопок», тематически сгруппированных, чтобы специалист по обслуживанию клиентов мог соответствующим образом их проработать. Это делается либо полностью вручную, либо с помощью простого if… then…. Решения реализованы в каком-то «почтовом роутере».

Uber, например, решил эту проблему с помощью простых моделей и собственного инструмента машинного обучения ludwig, который чрезвычайно прост в использовании. Успех, по-видимому, побудил их создать на его основе полноценный инструмент машинного обучения под названием COTA, который уже вошел в версию 2.

(3) Экспертные знания и / или персонализация?

Вещи, требующие «экспертных знаний», обычно подразумевают ручной труд. COTA, инструмент поддержки клиентов uber, был расширен именно для этого. После простой «сортировки писем» они обнаружили вторую возможность машинного обучения: экспертные знания, необходимые службе поддержки клиентов, чтобы затем отвечать на письма.

Поэтому они использовали НЛП и некоторые другие магии машинного обучения, чтобы предлагать предварительные ответы и ранжировать кучу возможных ответов на входящий вопрос, которые служба поддержки клиентов может затем использовать и изменять.

Другой пример можно найти на сайтах сравнения. Обычно им нужно классифицировать загруженные изображения и проверять, выглядят ли они «красиво». Для этого человек должен посмотреть на большое количество изображений, а затем развить понимание того, что есть что (да, эксперт, ведь есть собаки, которых человек не может отличить от кошки!) И что красиво а чего нет.

Немецкая компания сравнения Idealo перенесла эту задачу частично на машинное обучение в 2019 году и теперь может использовать эти результаты в своем движке.

Персонализация очень хорошо вписывается в этот контекст, потому что персонализация на самом деле - это просто экспертное понимание чьих-либо клиентов, и как таковая, например, отображение правильных рекламных материалов и предложений по электронной почте для соответствующего набора клиенты. Опять же, задача, которая есть почти в любом стандартном комплекте машинного обучения для автоматизации маркетинга.

(4) Узкое место вручную?

Ручные узкие места повсюду. В наши дни программное обеспечение действительно легко масштабируется, но люди обычно этого не делают. Таким образом, первоочередная задача быстрорастущих компаний - выявить ручные узкие места и заменить их технологиями, даже если технология иногда справляется с этой задачей хуже, чем люди.

Взамен, хотя мы добираемся до масштабов, что просто невозможно с человеческими узкими местами.

Примеры обслуживания клиентов также частично попадают в эту категорию, но я хотел бы привести еще один: история основания компании Automattic, коммерческой организации, стоящей за WordPress, обслуживающей около 30% интернет-сайтов, выглядит примерно так: Мэтт Мулленвег , продолжал писать системы защиты от спама с постоянно сокращающимся периодом полураспада. Оказывается, спамеры ловили его все быстрее и быстрее.

Оказывается, Мэтт был человеческим узким местом. Очевидно, именно здесь он понял, что ему нужно заменить это человеческое узкое место машиной. Так родились плагин Akismet и компания Automattic.

Подробные сведения об ограничивающих возможностях машинного обучения

Давайте посмотрим на вещи, которые ограничивают возможности, которые мы уже определили, и выбросим плохие яблоки из корзины.

(1) вам нужна высокая точность?

Машинное обучение обеспечивает высокую точность. А в некоторых случаях машины даже точнее людей-экспертов. Но есть одна оговорка: высокая точность безумно дороже хорошей точности, которая безумно дороже средней точности.

Хорошая новость заключается в том, что в большинстве случаев вам не нужна высокая точность. Стоимость двойной отправки электронного письма нескольким клиентам обычно довольно низка. Так же отображается неправильная реклама (обычно).

Но сортировка поступающих денег на правильный счет - это то, что на самом деле должно быть очень точным!

Поэтому спросите себя: «Ничего страшного, если что-то идет не так в 10–20% случаев?». Если нет, то, вероятно, оно того не стоит. Если это так, вы можете построить первую итерацию с точностью 80% и все же увеличить ее позже, что для вас будет намного дороже.

(2) Сделайте простое «если - то сделайте работу»?

Каждая компания хочет создать большую и дорогостоящую систему рекомендаций. И все же, как менеджер по продукту, вы всегда должны сначала оценивать гораздо более простые альтернативы типа «если-то».

Первый - это ручные рекомендации. Если ваша клиентская база достаточно однородна, и вы покупаете только 10 самых популярных продуктов, тогда, возможно, составленный от руки список «самых продаваемых товаров», отображаемый под каждой статьей и на главной странице, отлично подойдет.

С другой стороны, если ручная работа не очень хорошо сравнивается по шкале соотношения цены и качества, вы все равно можете подумать о создании продукта без машинного обучения, такого как «лидеры продаж в этой категории» или «лидеры продаж дня». . Каждая команда разработчиков может создать такую ​​функцию, без необходимости привлекать специализированных инженеров по машинному обучению.

Только если вы чувствуете, что эти две вещи действительно не помогут, вам следует изучить механизм рекомендаций машинного обучения. Бонус в том, что как только вы действительно создадите настоящий механизм рекомендаций, вы получите базовый показатель для сравнения, множество данных о переходах по ссылкам и т. Д.

(3) Есть только небольшой объем данных?

Несмотря на то, что люди думают, и несмотря на то, что, конечно, существуют методы машинного обучения для небольших наборов данных, с точки зрения менеджера по продукту, вы должны идти с очевидными вещами, вещами, которые не добавляют большой неопределенности или затрат к проект.

Так что, если ваша возможность не генерирует данные или дает только очень небольшой набор данных, поищите где-нибудь еще. Кроме того, возможности, которые генерируют мало данных, обычно требуют в первую очередь «чего-то еще». Если вас интересует экземпляр, который помогает сортировать реальную физическую почту с помощью машинного обучения, путем распознавания текста и последующей сортировки, есть только две возможные причины небольшого объема данных.

Во-первых, то, что вы нацеливаете, используется не так часто, и в этом случае бизнес-ценность любого машинного обучения там, вероятно, невысока. Если просто мало почты, которая в настоящее время распознается с помощью оптического распознавания символов, и люди не думают о ее последующей цифровой сортировке, возможно, это потому, что она не нужна.

Или что он используется, но не генерирует данные. Если существует масса физической почты, но никто еще не настроил процесс OCR, опять же, первым шагом должно быть настройка процесса OCR и предоставление людям возможности сортировать материалы в цифровом виде и проверять, приносит ли это уже улучшения.

Твоя очередь

Теперь ваша очередь разобраться со всеми возможностями и проектами, которые у вас есть. Есть ли яблоки? Если да, то уверены, что это не плохое яблоко?

Надеюсь, поможет!