Добро пожаловать в четвертую статью нашей серии из пяти статей о развертывании прогнозных моделей. До сих пор я представил нашу проверенную 10-шаговую методологию науки о данных и показал, что развертывание является важной частью дорожной карты науки о данных любой организации. В третьей части, Демистификация моделей, мы рассмотрели пример модели, которую мы могли бы захотеть развернуть, и разобрались с вопросом что такое модель.

Сегодня, в четвертой части, мы углубимся в окончательные соображения по развертыванию, которые команды должны обсудить, чтобы добиться успеха при подходе к проекту по науке о данных.

Помните, что успех в этом контексте определяется как переход модели прогнозирования от концепции к развертыванию, где она фактически используется либо внутри компании, либо во всем мире. Если вы сделаете это правильно, вы окажетесь в 20–30% лучших таких проектов, поскольку большинство из них вообще не достигают развертывания!

Знай свой тип

На высоком уровне есть два основных типа прогнозов, которые будут делать ваши прогностические модели:

  1. Онлайн прогнозы
  2. Пакетные прогнозы

Онлайн прогнозы

Онлайн-прогнозы возвращаются каждый раз, когда пользователю нужен ответ. Это тип предсказания, который мы обсуждали на прошлой неделе с нашей моделью цен на жилье. «Онлайн» не имеет ничего общего с Интернетом, скорее, онлайн относится к прогнозам, которые рассчитываются в режиме реального времени при каждом вызове модели.

Онлайн-прогнозы хорошо работают для более простых моделей с малой задержкой (ваши пользователи не хотят ждать, пока рекомендация продукта появится на странице). Кроме того, они также полезны для данных, которые могут изменяться в режиме реального времени, например, для персонализации сайтов электронной коммерции.

Пакетные прогнозы

Пакетные прогнозы — это прогнозы, которые рассчитываются заранее и сохраняются для последующего извлечения.

Пакетные прогнозы лучше всего подходят для сложных моделей или случаев, когда требуется большая пропускная способность, например, при отправке миллионов электронных писем в определенное время суток. Было бы намного проще предварительно вычислить (обработать пакетно) персонализированные сообщения электронной почты для отправки в 6 утра, чем заставлять поставщика услуг электронной почты вызывать онлайн-предсказатель десять миллионов раз в 6 утра.

Пакетные прогнозы также хорошо подходят для рекламных или маркетинговых кампаний, где необходимо одновременно выполнить огромное количество персонализированных действий. Другим хорошим примером является ранжирование по спискам, когда группе продавцов нужно знать, с какими потенциальными клиентами следует связаться в определенный день. В этом случае пакетный предсказатель каждое утро предварительно вычислял списки потенциальных клиентов и сохранял их для каждого члена отдела продаж.

Каждый тип предсказания требует разного доступа к данным и совершенно разных задач с точки зрения разработчика. Один в режиме реального времени, другой выполняется массово, но требует доступа к текущим данным.

Выбор типа прогноза

Решение о том, какой тип прогнозов использовать, должно быть принято на самом раннем этапе рабочего процесса науки о данных и, конечно же, до построения прогностических моделей. В противном случае команды могут обнаружить, что в середине процесса соответствующие данные недоступны, что потребует переделки конвейера, хранилища данных и типов моделей. Когда это происходит, часто бывает проще сдаться и начать все сначала, превратив проект в статистику и, что еще хуже, потратив много времени и денег.

Я рекомендую заранее поговорить с вашей командой по науке о данных. Убедитесь, что они понимают, какой тип прогнозов требуется, и убедитесь, что разработчики могут предоставить соответствующие данные для выбранного вами типа прогнозных моделей.

На следующей неделе, в моей последней статье этой серии, я расскажу о важном шаге измерения успеха ваших прогностических моделей. И в завершение мы также добавим контрольный список развертывания, который поможет вам успешно развернуть больше прогностических моделей и получить реальную окупаемость инвестиций в науку о данных. Быть в курсе!

Всего наилучшего,
Занк

Хотите оставаться в курсе событий в области науки о данных и искусственного интеллекта?
Подпишитесь на нашу рассылку Технические вторники! Получайте стратегическую информацию от отраслевых экспертов прямо на ваш почтовый ящик каждое утро вторника. Узнайте, как компании используют ИИ. получать реальный доход от своих данных. Мы обещаем сделать его интересным, информативным и увлекательным с первого дня!

Первоначально опубликовано на https://bennettdatascience.com 16 июня 2020 г.