Хорошо обученная обезьяна против команды выпускников Гарварда в сфере интеллектуального анализа данных

Эта статья является второй в серии статей о будущем прогнозной аналитики и науки о данных. Первая была опубликована под трогательным названием Споры на остывающем трупе науки о данных.

Благодаря многолетней истории обучения гипнотическому маркетингу необычайной ценности прогностической аналитики большинство людей считают ее сверхъестественной наукой и верят, что лишь несколько избранных математиков или статистиков (желательно с докторской степенью) могут разрабатывать прогностические модели. Вопреки этому распространенному мнению, я могу с уверенностью сказать, что даже хорошо обученная обезьяна может разработать приемлемые модели с помощью программного обеспечения для интеллектуального анализа данных самых престижных производителей.

Когда данные правильно подготовлены, принимая настройки по умолчанию вышеупомянутых программных пакетов, разработать приемлемую модель так же просто, как добавить небольшие значки на холст, соединить их соответствующим образом, а затем нажать кнопку «Выполнить».

Когда обезьяна добавляет узел, который разбивает обучающие данные на обучающую и проверочную выборку, а также подключает соответствующий узел моделирования, который может выбрать достаточно хороший алгоритм машинного обучения (ML) на основе некоторых атрибутов целевой переменной, или узел имеет возможность перебора наиболее широко используемых методов машинного обучения и выбора одного из них с наилучшей производительностью на основе некоторой довольно тривиальной встроенной функции стоимости, конечный результат будет около 70%-90% производительности модели, которая была разработана в результате нескольких итераций командой тщательно отобранных выпускников Гарварда с использованием менее сложного инструмента.

Вышеупомянутое утверждение не направлено на снижение ценности гарвардской степени, а просто подчеркивает важность подготовки данных, которая обычно занимает более 70% времени, отводимого на проект интеллектуального анализа данных. А во-вторых, это дань уважения встроенным настройкам по умолчанию и интеллекту лучшего доступного программного обеспечения для интеллектуального анализа данных.

Очевидно, что прогнозный аналитический проект — это не только обучение модели на хорошо подготовленном наборе данных. CRISP-DM — широко распространенная методология, описывающая проекты предиктивной аналитики. Еще один хорошо загадочный шаг CRISP-DM — понимание данных. На этом этапе предварительная цель специалиста по прогнозному моделированию — понять, какие данные можно использовать в качестве объясняющих переменных при прогнозировании цели. Его часто используют, чтобы представить идею о том, что это будет ракетостроение, и вы, вероятно, не сможете его понять. Тем не менее, вышеизложенное понимание данных можно легко описать очень простыми явлениями:

Если вы хотите построить успешные модели, которые предсказывают будущее значение целевой переменной на основе исторических наблюдений, вам лучше избегать включения атрибутов в набор пояснительных переменных, которые являются предпосылками или последствиями цели.

Хорошим примером может быть отказ от использования события "добавить в корзину" или "распечатать счет" в качестве объяснительной причины онлайн-покупки.

Понимание данных в некоторых случаях все еще может быть довольно сложным, однако большинство трудностей можно отнести к отсутствию надлежащих временных меток, присутствующих рядом с независимыми переменными.

Когда временные метки для всех рассматриваемых событий сохранены, задача на этапе понимания данных так же проста, как описано выше. целевое событие или целевое значение.

Типичный жизненный цикл разработки прогностической модели

Этот раздел может быть интересен не всем читателям. Если вам не требуется подробное объяснение разработки прогностической модели, можете пропустить этот раздел и перейти к разделу «Выводы из этой статьи».

Разработка прогностических моделей имеет типичную закономерность. Процесс всегда начинается с определения целевой переменной, которую вы хотите предсказать. Тип и распределение целевой переменной сократит список доступных алгоритмов машинного обучения (ML) до нескольких кандидатов, которые могут наилучшим образом решить рассматриваемую проблему.

Как только целевая переменная определена, следующим шагом будет сбор независимых переменных, которые будут использоваться для прогнозирования цели. Сбор объясняющих переменных и нахождение их наилучшего представления для данной проблемы составляет 95% усилий, которые необходимо вложить в разработку прогностической модели.

Когда независимые переменные собраны, можно сделать окончательный выбор метода ML, и за счет нескольких итераций будет найдена оптимальная настройка параметров выбранного метода ML.

Учитывая время и усилия, затраченные на разработку прогностической модели, эволюция кривой производительности следует модели, показанной на рисунке ниже.

Теоретическая верхняя грань кривой производительности (желтая пунктирная линия на графике выше) — идеальное решение. Это когда прогнозируемые значения всегда будут соответствовать фактам. Достижение этого предела, которое обычно происходит в начале разработки модели, обычно указывает на наличие проблем с используемыми переменными. Если это так, то следующим лучшим действием разработчика моделей является отслеживание ошибок.

Есть два дополнительных, более практичных предела, к которым в лучшем случае сходится кривая производительности.

Один из них определяется хорошей точностью применяемого алгоритма ML относительно представленной проблемы. Когда алгоритм ML выводит категориальные или двоичные значения, это часто интерпретируется как соответствие границам решения обученной модели ML. В настоящее время, когда ансамблевые модели просты в изготовлении и широко используются, это ограничение имеет меньше практического значения. Таким образом, он показан синей пунктирной вертикальной линией над другим пределом.

Другим фактором, ограничивающим производительность, является информация, хранящаяся в независимой переменной, которую можно использовать для прогнозирования значения целевой переменной. Обычно невозможно включить все части информации, определяющие будущую стоимость цели. Кроме того, цель может также иметь некоторые недетерминированные признаки, поэтому этот предел (штриховая красная линия на графике) всегда ниже предела идеального решения.

Стоит отметить, что порядок вышеописанных двух пределов может варьироваться в зависимости от задачи. Когда важна интерпретируемость модели и, таким образом, хорошесть подгонки сильно ограничена, и в то же время прогностическая сила доступных объясняющих переменных высока, возможно, что синяя пунктирная линия будет ниже, и кривая производительности будет сходиться к этому, вместо случая, показанного на диаграмме.

Жизненный цикл разработки можно разделить на три основных раздела:

  1. Разработка начинается с Эры необычайного. Это этап, когда разработчики прогностических моделей начинают более детально понимать поступающие данные. Они по-прежнему могут обнаружить несоответствия в данных, от них потребуется отфильтровать нежелательные случаи, переопределить объем проекта и, возможно, найти переменные среди объясняющих переменных, которые являются предпосылкой или следствием цели. Этот этап разработки из-за его сложной когнитивной природы требует ручного контроля и его трудно автоматизировать. Однако выполнение этого шага может быть выполнено за короткий период времени и занимает около 5–10% от общего времени, затрачиваемого на разработку.
  2. На втором этапе, Эпоха лучших практик, набор объясняющих переменных можно считать свободным от ошибок. Разработчики модели выбирают наиболее подходящий алгоритм ML или, в случае ансамблевой модели, наиболее подходящий алгоритм ML для рассматриваемой проблемы. В некоторых случаях, особенно когда требуется применение внешнего метода уменьшения размерности или выбора переменных, это может быть и последовательность алгоритмов. После выбора алгоритма основное внимание уделяется представлению имеющейся информации в форме, обеспечивающей наилучшие прогностические характеристики с учетом выбранного метода МО.
    Для этого используются стационарные переменные, не меняющие своих значений в ходе для исследуемого периода времени разработчики моделей применяют методы вменения, группировки, удаления выбросов или дальнейшего преобразования данных.
    В случае переменных, которые меняют свои значения в течение периода моделирования, снимки последних N состояний или снимки некоторых выделенных моментов также добавляются как отдельные атрибуты. Добавление атрибутов delta, которые подчеркивают природу изменений, в большинстве случаев также служит хорошей цели.
    В некоторых приложениях может быть полезно получить атрибуты, которые подчеркивают совместный характер некоторых пояснительных переменные, поэтому они также включаются в набор используемых объясняющих переменных.
    Этот этап разработки требует больших усилий; однако его можно автоматизировать с помощью предопределенных экспертных правил и встроенных методов преобразования данных.
    В результате этого этапа прогностическая эффективность обычно достигает 70–90% от нижнего теоретического предела, описанного выше. Большинство проектов предиктивной аналитики, не относящихся к классическим областям применения (таким как банковское дело и страхование), останавливаются где-то на этом этапе, потому что дополнительная производительность, которая может быть достигнута при дальнейшей настройке, не стоит дополнительных вложенных усилий.
  3. Заключительный этап процесса разработки, поле битвы орды выпускников Гарварда, практически бесконечен. Качественное значение теоретического предела, к которому сходится кривая производительности, заранее неизвестно, поэтому никто не знает, достигнет ли его производительность модели на N-й итерации или нет. За исключением банковского дела и страхования, где финансовые последствия прогноза высоки, нет никакого реального смысла двигаться прямо на этом плато ценой усилий. Из вышеописанных методов подготовки данных, которые можно применять вслепую, некоторые тщательно выведенные атрибуты, выделяющие некоторые важные функции приложения, могут значительно повысить эффективность прогнозирования.

Выводы из этой статьи

Прогнозное моделирование не сложно. Позвольте мне доказать это, используя этапы методики CRISP-DM ниже:

  • Понимание бизнеса. Важно иметь представление о том, как прогнозирование события/ценности до того, как она произойдет, влияет на ценность. Когда вы понятия не имеете об этом, лучше не тратить время и деньги на прогнозную аналитику или на специалиста по данным. Как только эта проблема решена, часто нетривиальная, должен быть кандидат на целевую переменную для прогнозирования.
  • Понимание данных. Это довольно тривиально. Как только вы определите событие или значение, которое стоит предсказать до того, как оно произойдет — это была задача в предыдущем пункте — вы уже на полпути. Вторая половина задачи — сбор событий и атрибутов, которые можно использовать для прогнозирования вашей цели. В случае, когда известна временная метка для каждого возможного пояснительного атрибута, что легко может иметь место в обычных бизнес-/промышленных приложениях, эта задача почти тривиальна. Удалите события, которые являются предпосылками или последствиями цели, и определите, насколько далеко в будущем вам нужно предсказать цель, и это сделано.
  • Подготовка данных. Да, вы правы, это может быть сложно и может превратиться в бесконечный повторяющийся процесс. На этом этапе выпускники Гарварда побеждают обезьяну, однако существует довольно много методов (вменение, получение комбинации или слияние переменных, группировка категориальных переменных, группирование непрерывных переменных, удаление выбросов и т. д.), которые можно применять, рассматривая совместный характер зависимых и независимых переменных, которые могут помочь решить эту проблему, автоматически достигая хороших результатов. И без необходимости в выпускниках Гарварда.
    Здесь я должен признать, что приведенное выше предположение, учитывающее простой характер подготовки данных, верно только тогда, когда входящие данные более или менее реляционны и мудры представлением, близким к форме ключа /value, что верно в случае большинства бизнес-приложений и промышленных приложений. В случае, когда поступающие данные имеют очень сложный характер, например, аудио/видеозаписи, изображения или информация о геномике, подготовка данных или, как это можно было бы лучше назвать, конструирование признаков может быть очень сложной задачей.
  • Моделирование: довольно просто, независимо от того, что говорят другие. Исследователи данных и специалисты по прогнозному моделированию не разрабатывают новые методы моделирования или алгоритмы машинного обучения. Это трудная часть, и она сделана учеными. Люди, упомянутые выше, просто применяют эти умные алгоритмы, рассматривая несколько правил (например, здесь или здесь), которые можно вывести из природы переменных, рассматриваемых либо как поясняющие, либо как целевые.
  • Оценка: по моему мнению, важный аспект этой задачи относится к этапу понимания данных, поскольку проблема здесь заключается в том, чтобы понять, влияет ли прогнозирование цели с определенной точностью на ценность или нет. Когда кто-то знает, что показывает подъем и диаграмма прироста, что может быть выполнено старшеклассниками с некоторым энтузиазмом, эту работу можно считать выполненной.
  • Развертывание. Опять же, я бы сказал, что самая сложная часть этого процесса относится к этапу понимания бизнеса. Остальное: сбор независимых переменных, что является проблемой ETL, применение модели для оценки должно быть не более чем простым вызовом API, а правильное отображение оценок — это ETL, но в основном проблема понимания бизнеса.

Благодаря вышеизложенным фактам прогнозное моделирование скоро станет дешевым, практически не требуя вложений, оно станет мейнстримом, как какая-то обычная утилита для работы с данными. В качестве побочного эффекта наука о данных перестанет быть самой сексуальной работой 21-го века, но, что наиболее важно, все это подготовит смену парадигмы в прогнозном моделировании и в применении машинного обучения, которое принесет дивный новый мир продукта будущего, в котором способности к обучению и адаптации будут общими. Некоторые называют это 4-й промышленной революцией или Индустрией 4.0. В следующей статье этой серии я познакомлю вас с этим дивный новым миром.

А пока оставайтесь с нами, делитесь, комментируйте, спорьте и спасибо за чтение.

Дальнейшие благодарности

Спасибо Dan Rice за его ценный комментарий к первой статье, который обратил мое внимание на то, что все изложенное здесь в этих статьях предполагает бизнес-приложения и промышленные приложения прогнозной аналитики, когда входящие данные являются скорее реляционными и могут быть описаны как пары ключ-значение. .
Приложения машинного обучения, в которых входящие данные являются сложными, такими как аудио/видеозаписи, изображения или геномная информация, конструирование признаков действительно можно рассматривать как ракетостроение.

Об авторе

Золтан — бывший ученый, который занимается ментальной проституцией, чтобы в последнее десятилетие жить вокруг анализа данных и машинного обучения (МО). Иногда его называли майнером данных, иногда — ученым данных, в зависимости от эпохи.
Он является основателем и генеральным директором PredictronLabs, платформы MLaaS нового поколения, целью которой является демократизация доступа к прогнозной аналитике и машинному обучению, чтобы превзойти четвертую промышленную революцию.