Рекомендации и передовые методы прогнозного моделирования

Автор Дэвид Сяо

Машинное обучение меняет то, как организации решают бизнес-задачи практически во всех отраслях. Здесь, в Dow Jones, с растущими объемами структурированных и неструктурированных данных, ежедневно поступающих в наши системы, мы получаем огромные преимущества, используя эти инструменты и методы машинного обучения для оптимизации разработки новых продуктов, оптимизации внутренних операций и предоставления клиентам более точной информации.

В частности, когда мы думаем о том, как персонализировать взаимодействие с клиентами для The Wall Street Journal, Barron's и Marketwatch, и улучшать понимание данных в нашей профессиональной информации Бизнес (Factiva, DNA, Risk & Compliance), мы учимся, когда и где правильно использовать машинное обучение для формирования будущего нашего бизнеса.

В ожидании нашего дальнейшего расширения в мир машинного обучения мы работали с нашим AI Center of Excellence над разработкой набора стандартизированных руководящих принципов и правил для продвижения надлежащих и устойчивых методов моделирования машинного обучения в Dow. Джонс.

Теперь мы хотели бы поделиться с вами нашей работой в надежде, что следование приведенному ниже рабочему процессу и рекомендациям поможет вам начать успешную реализацию приложения для прогнозного моделирования.

  1. ПОДГОТОВКА ДАННЫХ

Правило №1. Разработайте показатели.

Прежде чем работать с каким-либо прогнозным моделированием, вам необходимо знать, для чего вы оптимизируете свою модель, и понимать существующие данные. Начиная любую прогностическую работу, убедитесь, что вы можете ответить на следующие вопросы:

  • Сформировал ли я свою гипотезу? Что я хочу оптимизировать?
  • Каков источник моих данных? Как его собирают?
  • В каком это формате?
  • Связаны ли какие-либо проблемы с безопасностью или конфиденциальностью?
  • Какие данные относятся к проблеме, которую я пытаюсь решить?

Правило №2: анализируйте свои данные.

Вы должны понимать, о чем говорят ваши данные. Одно дело знать, какие данные у вас есть, но более важно знать, что эти данные говорят о мире, который вы хотите представить. Задайте себе следующие вопросы:

  • Провел ли я какой-либо исследовательский анализ моих данных?
  • Являются ли данные после преобразования «истинными» и отражают ли объективную реальность?
  • Записал ли я детали процессов сбора и преобразования?

2. ПРОГНОЗНОЕ МОДЕЛИРОВАНИЕ

Правило №3. Сохраняйте простоту первой модели и создавайте правильную инфраструктуру.

Первая модель дает максимальный импульс вашему приложению, поэтому она не должна быть сложной. Простая модель предоставит вам базовые показатели и поведение, которые вы сможете использовать для тестирования более сложных моделей позже. Убедитесь, что вы согласовали инструменты и архитектуру со всеми затронутыми сторонами в организации.

  • Могу ли я начать с выбора 1-2 функций для проверки моей гипотезы?
  • Могут ли мои выбранные функции воспроизводиться в будущем?
  • У меня есть базовая модель? Насколько это приемлемо?
  • Где хранить модель и как ее масштабировать?
  • Согласованы ли инструменты и архитектура с другими участниками?

Правило №4. Тестируйте инфраструктуру независимо от машинного обучения.

Ваша инфраструктура должна быть тестируемой. Убедитесь, что у вас есть тесты для кода для создания примеров в обучении и обслуживании, и что вы можете загружать и использовать фиксированную модель во время обслуживания.

  • Как мне создать репрезентативные данные тестирования и проверить производительность модели?

Правило № 5: выбор и уточнение модели.

Согласуйте с заинтересованными сторонами, как будет выглядеть «готовая к производству модель» с точки зрения ее предсказуемости. Поймите, решает ли ваша модель проблему, которую вы пытаетесь оптимизировать. Если нет, попробуйте еще раз вернуться к цели вашей модели и повторно выбрать свои функции.

  • Все ли мои заинтересованные стороны согласны с приемлемым уровнем предсказуемости модели?
  • Тщательно ли я оценил точность или общую точность модели? Соответствует ли прогнозируемая производительность потребностям бизнеса?
  • Уверен ли я в надежности предсказательной силы в любых условиях тестирования? Если нет, как я могу доработать модель до тех пор, пока она не будет соответствовать стандартам, готовым к производству?

Правило № 6: объяснимость вывода.

Что вам говорит прогноз вашей модели? Убедитесь, что вы понимаете свою модель больше, чем «черный ящик». Поймите и будьте готовы объяснить, почему ваш прогноз ведет себя таким образом, чтобы вы могли использовать выводы и разработать соответствующие стратегии для удовлетворения потребностей.

  • Могу я объяснить, что делает моя модель?
  • Могу ли я реализовать какие-либо действенные стратегии на основе этих идей?

3. ПРОИЗВОДСТВО

Правило № 7. Мониторинг: знайте требования своего приложения.

Поймите, насколько снизится производительность за определенный промежуток времени. Эта информация может помочь вам понять приоритеты вашего мониторинга. Если вы значительно теряете качество из-за того, что модель не обновляется в течение фиксированного периода времени, обязательно обновите или переобучите свою модель, чтобы она соответствовала требованиям к производительности. Вам также следует с осторожностью использовать свои инструменты и ресурсы для достижения долгосрочной устойчивости.

  • Я активно сообщаю о том, насколько снизилась производительность с течением времени?
  • Согласовал ли я с бизнесом частоту обновления модели для поддержания стабильной производительности?
  • Активно ли я поддерживаю свои расходы на хранение данных и мониторинг?

Правило № 8: Ответственность.

Возьмите на себя полную ответственность за сообщение ваших последующих выводов затронутым сторонам, включая клиентов. Убедитесь, что вы несете ответственность (как с точки зрения бюджета, так и с точки зрения технического обслуживания) за поддержание устойчивости вашей модели в долгосрочной перспективе.

  • Все ли я задокументировал, чтобы можно было сделать резервную копию и объяснить свои выводы?
  • На кого моя модель повлияет в долгосрочной перспективе?

Надеемся, что, применив эти правила к своим проектам, вы добьетесь успеха в реализации надежных и масштабируемых проектов прогнозного моделирования для своего бизнеса.

Если у вас возникнут какие-либо вопросы относительно этих предлагаемых правил, не стесняйтесь обращаться к Дэвиду Сяо, Нику Варни, Алексу Сигмену, Кабиру Сету или Джону Уайли.

Спасибо Кэти Берк.