Аналитика и машинное обучение — это все о данных. Качество и количество ваших данных играют решающую роль в определении эффективности моделей. Но даже с огромным количеством лучших данных, если ваш процесс не использует их должным образом, ваши результаты будут сомнительными. На всех этапах процесса должны использоваться не только одни и те же данные, но и одна и та же интерпретация их значения.

Процесс аналитики состоит из трех этапов: «Описать», «Предсказать» и «Предписать». В идеале каждый из этих этапов вращается вокруг каталога объектов, который обеспечивает стандартное представление данных и включает в себя бизнес-значение. Например, у него будет функция (или атрибут) под названием «Деловой адрес», а не «адрес номер 5 типа 37 в коллекции X». Вы поняли второе? Я тоже не знал — и это означает, что каждый специалист по данным, собирающий наборы данных, может интерпретировать его по-разному.

Опишите:

Первым этапом построения каталога объектов является создание семантической модели. Семантическая модель — это виртуальная модель данных, полностью абстрагированная от источников данных. Это позволяет вам сосредоточиться на бизнес-описании (семантике) и использовании функций, не беспокоясь о том, откуда они берутся и как хранятся. Нет необходимости создавать весь каталог сразу. Вы можете начать с малого и увеличивать его со временем.

Затем вы сопоставляете функции с фактическими источниками данных. Если есть конфликтующие источники, вы можете централизовать правила для разрешения конфликтов и несоответствий. Поскольку правила централизованы, вы можете гарантировать, что все, кто использует каталог объектов, будут использовать одни и те же правила. Это также дешевле, чем поддерживать ETL. С ETL каждая проблема аналитики поставляется с новым кодом ETL, который повторяет ту же логику, что и предыдущий код для разрешения конфликтов. Код раздувается очень быстро.

Наконец, вы предоставляете данные в каталоге, доступном для всех.

Прогнозировать:

Теперь идет машинное обучение. Во-первых, вы начинаете с аналитиков данных и инженеров данных, которые исследуют данные. Они используют стандартные отраслевые инструменты, такие как Sparc, Zeppelin и Jupyter, чтобы просматривать данные, понимать, о чем они говорят, и определять, какие функции важны для решения данной проблемы. Иногда им нужны дополнительные данные, и тогда они могут вернуться к циклу описания, чтобы отобразить некоторые новые функции; иногда им нужно создать новую функцию с расчетом одной или нескольких коррелирующих функций. В любом случае в каталог добавляются новые функции, которые могут использовать все желающие. Когда обнаружение данных будет завершено, специалисты по данным получат список функций, необходимых для машинного обучения.

Прежде чем мы продолжим, давайте сделаем шаг назад и обсудим традиционный способ исследования данных и машинного обучения. Для исследования данных специалисты по данным, аналитики данных и инженеры по обработке данных собирают запросы данных для выполнения в бэк-офисе. Бэк-офис предполагает, какие атрибуты в каких системах имеют значение, и предоставляет электронную таблицу или дамп данных исследователям, которые творят свое волшебство. По завершении исследователи передают специалистам по данным документ, в котором перечислены необходимые функции. Чем занимаются специалисты по данным? Они возвращаются в бэк-офис и запрашивают дополнительные данные. Персонал бэк-офиса, вероятно, разные люди, соберет данные, которые они считают важными, и передаст их в виде электронной таблицы или дампа данных. Заметили здесь проблемы? Во-первых, данные определенно устарели. Во-вторых, данные, вероятно, несовместимы, потому что разные люди из бэк-офиса интерпретировали значение и, вероятно, извлекали данные из разных систем.

Каталог функций решает эту проблему, потому что все используют одни и те же функции, которые предоставляют одни и те же данные, и данные всегда актуальны.

Специалисты по данным используют свои навыки для обучения и тестирования модели машинного обучения и развертывания модели принятия решений, которую можно подключить к фронт-офисным приложениям. Опять же, модель принятия решений будет использовать те же самые функции, которые использовались в исследовании данных и машинном обучении, обеспечивая последовательное применение модели машинного обучения.

Предписать:

Модель принятия решений теперь может предписывать, что должен делать пользователь. В управлении капиталом это может быть следующим лучшим действием, которое повысит лояльность клиентов и побудит их инвестировать больше; в корпоративном банкинге это может быть рекомендуемым продуктом и методологией продаж для продвижения плана счета для важного клиента. В любом случае система отслеживает результаты действий с течением времени и передает результаты обратно в цикл обратной связи, чтобы обеспечить непрерывное обучение. По мере того, как банкиры и консультанты используют систему и принимают рекомендации или делают что-то еще, система будет отслеживать результаты и в следующий раз давать лучшие рекомендации.

Благодаря единому каталогу функций, участвующему на всех этапах аналитического процесса, фирмы могут быть уверены, что модели принятия решений будут согласованными, более точными и, что наиболее важно, будут продолжать учиться по мере использования системы консультантами и банкирами.

Как вы предоставляете данные для машинного обучения? Как вы передаете полученные модели решений в руки людей, которые в них нуждаются?

Первоначально опубликовано на nexj.com 6 июня 2018 г.
Свяжитесь с нами в социальных сетях! Linkedin, Twitter или Facebook