Рекомендации и передовые методы прогнозного моделирования
Автор Дэвид Сяо
Машинное обучение меняет то, как организации решают бизнес-задачи практически во всех отраслях. Здесь, в Dow Jones, с растущими объемами структурированных и неструктурированных данных, ежедневно поступающих в наши системы, мы получаем огромные преимущества, используя эти инструменты и методы машинного обучения для оптимизации разработки новых продуктов, оптимизации внутренних операций и предоставления клиентам более точной информации.
В частности, когда мы думаем о том, как персонализировать взаимодействие с клиентами для The Wall Street Journal, Barron's и Marketwatch, и улучшать понимание данных в нашей профессиональной информации Бизнес (Factiva, DNA, Risk & Compliance), мы учимся, когда и где правильно использовать машинное обучение для формирования будущего нашего бизнеса.
В ожидании нашего дальнейшего расширения в мир машинного обучения мы работали с нашим AI Center of Excellence над разработкой набора стандартизированных руководящих принципов и правил для продвижения надлежащих и устойчивых методов моделирования машинного обучения в Dow. Джонс.
Теперь мы хотели бы поделиться с вами нашей работой в надежде, что следование приведенному ниже рабочему процессу и рекомендациям поможет вам начать успешную реализацию приложения для прогнозного моделирования.
- ПОДГОТОВКА ДАННЫХ
Правило №1. Разработайте показатели.
Прежде чем работать с каким-либо прогнозным моделированием, вам необходимо знать, для чего вы оптимизируете свою модель, и понимать существующие данные. Начиная любую прогностическую работу, убедитесь, что вы можете ответить на следующие вопросы:
- Сформировал ли я свою гипотезу? Что я хочу оптимизировать?
- Каков источник моих данных? Как его собирают?
- В каком это формате?
- Связаны ли какие-либо проблемы с безопасностью или конфиденциальностью?
- Какие данные относятся к проблеме, которую я пытаюсь решить?
Правило №2: анализируйте свои данные.
Вы должны понимать, о чем говорят ваши данные. Одно дело знать, какие данные у вас есть, но более важно знать, что эти данные говорят о мире, который вы хотите представить. Задайте себе следующие вопросы:
- Провел ли я какой-либо исследовательский анализ моих данных?
- Являются ли данные после преобразования «истинными» и отражают ли объективную реальность?
- Записал ли я детали процессов сбора и преобразования?
2. ПРОГНОЗНОЕ МОДЕЛИРОВАНИЕ
Правило №3. Сохраняйте простоту первой модели и создавайте правильную инфраструктуру.
Первая модель дает максимальный импульс вашему приложению, поэтому она не должна быть сложной. Простая модель предоставит вам базовые показатели и поведение, которые вы сможете использовать для тестирования более сложных моделей позже. Убедитесь, что вы согласовали инструменты и архитектуру со всеми затронутыми сторонами в организации.
- Могу ли я начать с выбора 1-2 функций для проверки моей гипотезы?
- Могут ли мои выбранные функции воспроизводиться в будущем?
- У меня есть базовая модель? Насколько это приемлемо?
- Где хранить модель и как ее масштабировать?
- Согласованы ли инструменты и архитектура с другими участниками?
Правило №4. Тестируйте инфраструктуру независимо от машинного обучения.
Ваша инфраструктура должна быть тестируемой. Убедитесь, что у вас есть тесты для кода для создания примеров в обучении и обслуживании, и что вы можете загружать и использовать фиксированную модель во время обслуживания.
- Как мне создать репрезентативные данные тестирования и проверить производительность модели?
Правило № 5: выбор и уточнение модели.
Согласуйте с заинтересованными сторонами, как будет выглядеть «готовая к производству модель» с точки зрения ее предсказуемости. Поймите, решает ли ваша модель проблему, которую вы пытаетесь оптимизировать. Если нет, попробуйте еще раз вернуться к цели вашей модели и повторно выбрать свои функции.
- Все ли мои заинтересованные стороны согласны с приемлемым уровнем предсказуемости модели?
- Тщательно ли я оценил точность или общую точность модели? Соответствует ли прогнозируемая производительность потребностям бизнеса?
- Уверен ли я в надежности предсказательной силы в любых условиях тестирования? Если нет, как я могу доработать модель до тех пор, пока она не будет соответствовать стандартам, готовым к производству?
Правило № 6: объяснимость вывода.
Что вам говорит прогноз вашей модели? Убедитесь, что вы понимаете свою модель больше, чем «черный ящик». Поймите и будьте готовы объяснить, почему ваш прогноз ведет себя таким образом, чтобы вы могли использовать выводы и разработать соответствующие стратегии для удовлетворения потребностей.
- Могу я объяснить, что делает моя модель?
- Могу ли я реализовать какие-либо действенные стратегии на основе этих идей?
3. ПРОИЗВОДСТВО
Правило № 7. Мониторинг: знайте требования своего приложения.
Поймите, насколько снизится производительность за определенный промежуток времени. Эта информация может помочь вам понять приоритеты вашего мониторинга. Если вы значительно теряете качество из-за того, что модель не обновляется в течение фиксированного периода времени, обязательно обновите или переобучите свою модель, чтобы она соответствовала требованиям к производительности. Вам также следует с осторожностью использовать свои инструменты и ресурсы для достижения долгосрочной устойчивости.
- Я активно сообщаю о том, насколько снизилась производительность с течением времени?
- Согласовал ли я с бизнесом частоту обновления модели для поддержания стабильной производительности?
- Активно ли я поддерживаю свои расходы на хранение данных и мониторинг?
Правило № 8: Ответственность.
Возьмите на себя полную ответственность за сообщение ваших последующих выводов затронутым сторонам, включая клиентов. Убедитесь, что вы несете ответственность (как с точки зрения бюджета, так и с точки зрения технического обслуживания) за поддержание устойчивости вашей модели в долгосрочной перспективе.
- Все ли я задокументировал, чтобы можно было сделать резервную копию и объяснить свои выводы?
- На кого моя модель повлияет в долгосрочной перспективе?
Надеемся, что, применив эти правила к своим проектам, вы добьетесь успеха в реализации надежных и масштабируемых проектов прогнозного моделирования для своего бизнеса.
Если у вас возникнут какие-либо вопросы относительно этих предлагаемых правил, не стесняйтесь обращаться к Дэвиду Сяо, Нику Варни, Алексу Сигмену, Кабиру Сету или Джону Уайли.
Спасибо Кэти Берк.