В разгар недавней встречи один из руководителей внезапно спросил: «Используем ли мы машинное обучение?». Это застало нас врасплох; работая в этой области в течение многих лет, мы используем «обучающие науки» практически каждый день для решения сложных задач. Машинное обучение (ML), Data Science (DS) и искусственный интеллект (AI) захватывают и очень эффективны; тем не менее, мы рады использовать традиционные методы, когда они лучше всего подходят для решения проблемы клиента.

Но я могу понять, откуда взялся вопрос, учитывая шумиху вокруг ML, DS и AI. (Иногда интерес к внутренним деталям превышает интерес к более важным внешним результатам. Я знаю это чувство; как любитель авиации; я могу больше ориентироваться на марку, модель и характеристики самолета, чем на то, доберусь я до своего место назначения вовремя!) Однако с точки зрения бизнеса ML - это только один инструмент в большом наборе инструментов, который мы можем использовать, чтобы помочь агентствам и предприятиям использовать данные для улучшения своих повседневных решений.

Итак, что такое машинное обучение (ML)?

Давайте вернемся во времена, когда у нас не было компьютеров, и нам приходилось разбирать данные с помощью алгебры. Чтобы сделать расчеты практичными, предполагалось, что связь между известными данными и тем, что мы хотели спрогнозировать, была линейной. (Отсюда и термин «линейная регрессия».)

Линейное уравнение может быть таким простым, как y = mx + b, где y - это то, что мы хотим прогноз, m - наклон линии (или плоскости в более высоких измерениях), x - наши входные данные или независимые атрибуты, а b - точка пересечения или начальная позиция строки. Используя линейную алгебру, можно вычислить m и b, чтобы минимизировать (квадратичную) ошибку для всех наших данных. . На рисунке 1 показан пример с двумя входными размерами.

Синие точки - наши данные, а плоскость - наш прогноз. Наше вычисление позиционирует плоскость так, чтобы сумма квадратов ошибок между ней и синими точками была минимизирована для всех данных.

Теперь давайте перенесемся в настоящее, когда у нас есть мощные компьютеры с огромным объемом памяти и чрезвычайно быстрыми вычислениями. В нашем распоряжении также экспоненциально больше данных. Ключевым преимуществом машинного обучения (ML) является то, что компьютер обнаруживает связь между данными и целью y, а не заставляет ее быть линейной (см. рисунок 2 ).

Прогнозы модели машинного обучения обычно более точны и могут учитывать тонкости данных, которые были чрезмерно обобщены в соответствии с линейным предположением. Короче говоря, мы используем мощность компьютера для поиска огромного количества возможностей найти более точную взаимосвязь между нашими данными и тем, что мы пытаемся предсказать или лучше понять.

Естественно, использование машинного обучения сопряжено с некоторыми опасностями. Что наиболее важно, структура может быть слишком подогнана к историческим данным, которые мы использовали для обучения модели. Когда в модель прогнозирования подаются новые и немного отличающиеся данные, слишком подходящая структура может дать плохие результаты. Для защиты от этой опасности требуется вдумчивое применение и тщательное тестирование модели машинного обучения.

Ключевым преимуществом является то, что обнаруженные взаимосвязи нелегко (или никогда) выявить вручную или с помощью традиционных методов анализа. Поскольку отношения часто бывают сложными, их трудно интерпретировать специалистам-людям, и может показаться, что они противоречат интуиции и статус-кво. Тем не менее, лучшие практики в тестировании могут показать, что модели хорошо работают в новых, связанных ситуациях, что является наиболее важным критерием.

Вот некоторые примеры бизнес-проблем, которые в настоящее время видят ценное применение ML:

… Хотя приложений очень много - многие из них подробно описаны в тематических исследованиях Elder Research.

Хотя машинное обучение и искусственный интеллект (ИИ) взаимозаменяемо используются за пределами нашей области, они не совпадают, и их происхождение совершенно разное. AI обычно рассматривается как задачи, которые могут быть выполнены с помощью компьютера, которые ранее считались исключительно человеческими. Интересно, что многие задачи, которые в 1980-х годах были классифицированы как «ИИ», сейчас являются рутинными и больше не считаются «ИИ». Концепции машинного обучения фактически предшествовали термину ИИ. Машинное обучение относится к набору методов, используемых для индуктивного обнаружения взаимосвязей в данных, и было создано пионерами в области статистического анализа и оптимизации, тогда как искусственный интеллект родился из области компьютерных наук. Итак, ИИ нужны причины, гипотезы или правила, тогда как машинному обучению нужны данные, примеры или отмеченные случаи, то есть известные результаты, такие как «эти действия приводят к более высокой прибыли, а эти другие действия приводят к более низкой прибыли».

ML лучше всего понять через его применение и в сравнении с традиционными методами. Предотвращение мошенничества - отличный пример приложения, которое показывает, как машинное обучение позволяет организациям по-новому выполнять важную работу.

Защита от мошенничества без машинного обучения

Чтобы атаковать проблемы мошенничества, человек-аналитик может собирать информацию и доказательства из двух основных источников: 1) экспертов в предметной области, которые работали в этой области в течение многих лет, и 2) данных о транзакциях напрямую. ИИ в первую очередь полагается на извлечение и автоматизацию первого - человеческого опыта, а машинное обучение - прежде всего на просеивании и моделировании последних - исторических данных. Оба могут быть действенными способами поиска закономерностей, отделяющих редкие примеры известных мошеннических транзакций от значительно большего числа (предполагаемых) действительных транзакций.

Без машинного обучения схемы мошенничества должны быть идентифицированы явно, чтобы, например, можно было настроить механизм правил, который передает или не выполняет транзакции, когда они происходят, в режиме реального времени. С движком правил легко начать, но сложно развить. Они «хрупкие» в том смысле, что ограничиваются только схемами мошенничества, выявленными специалистами-аналитиками. Их также сложно обслуживать; аналитики и другие заинтересованные стороны должны встречаться и согласовывать правила консенсусом, основанным на доказательствах. В конечном итоге мошенники обычно находят пробелы в правилах и придумывают новые схемы, чтобы использовать эти пробелы.

В этом сценарии, после того как хорошо известные схемы схемы мошенничества закодированы, аналитики часто могут потратить тысячи часов на просмотр сотен оставшихся случаев, пытаясь найти еще несколько схем. К сожалению, наш мозг не приспособлен для этого, и поэтому многие закономерности вообще упускаются. И проблема становится намного больше, когда есть миллионы записей и случаев и сотни возможных переменных или функций, которые необходимо учитывать. Большинство людей могут видеть закономерности только в одном или двух атрибутах одновременно. Это приводит к простым правилам, которые генерируют множество ложных срабатываний. Более тонко, такие цели тратят время аналитика на малозначимые повторяющиеся задачи с высоким уровнем ошибок вместо того, чтобы использовать преимущество, которое дает наш мозг, для разработки вопросов или гипотез о том, как необычно обнаруженные закономерности могут быть связаны с преступностью.

Защита от мошенничества с помощью машинного обучения

С помощью машинного обучения компьютерный алгоритм строится (или, на языке науки о данных, обучается) на исторических данных о мошеннических и не мошеннических транзакциях. Ключевым моментом здесь является то, что алгоритм имеет надежный набор известных примеров мошенничества и не мошенничества в данных. Дело, которое было расследовано и признано мошенничеством, является простым примером известного мошенничества. (Многие иногда упускают из виду, что случай, который не был расследован, не обязательно может быть отнесен к категории «не мошенничество». Точнее, он был бы помечен как неизвестный.) Ключевым моментом является то, что для алгоритма машинного обучения обнаруживается взаимосвязь между данными и результаты ему нужны точно обозначенные результаты.

Чтобы дополнить определение набора правил людьми на основе консенсуса, на основе всех имеющихся данных строится математическая модель. Основное отличие состоит в том, что алгоритм машинного обучения способен исследовать миллионы возможностей, которые невозможно было бы рассмотреть ни человеку, ни группе людей. Но тогда мы должны быть открыты для новых открытий, которые обнаруживает алгоритм!

Дополнительное мощное преимущество появляется из модели, оценивающей все случаи: составленный по приоритетам список вероятных случаев мошенничества. Организации могут использовать эту новую информацию для упреждающего планирования распределения ресурсов с целью оптимизации расследования дел. Руководители могут узнать, что существует несоответствие между распределением ресурсов в конкретном географическом регионе и долей дел в этом регионе.

По мере появления новых и различных схем мошенничества, роста исторических данных и обновления моделей машинного обучения они могут обнаруживать в данных новые аномальные закономерности, которые отличаются от обычных транзакций. Следовательно, когда в системе машинного обучения есть механизм обратной связи для включения новых известных результатов в данные / модель, она может адаптироваться к динамическому миру так, как это не может сделать система, не относящаяся к машинному обучению. Даже модель искусственного интеллекта не может этого сделать!

В сценарии машинного обучения компьютеры быстро сортируют миллионы дел, чтобы найти интересные закономерности, связанные с преступностью. Методы машинного обучения могут одновременно учитывать множество атрибутов, что позволяет более надежно обнаруживать шаблоны. Теперь время аналитика тратится на очень важные задачи по разработке гипотезы о том, как новые и необычные модели могут быть связаны с преступностью, и, в конечном итоге, на помощь алгоритмам машинного обучения в улучшении.

Если вы дочитали до этого места, то, возможно, согласитесь, что это лучший вопрос, чем «используем ли мы машинное обучение?» «Используем ли мы наш ценный человеческий капитал и наш огромный вычислительный капитал таким образом, чтобы наилучшим образом использовать их относительные сильные стороны?»

Первоначально опубликовано на www.elderresearch.com.