Цель этой статьи — обсудить ответственность, которую мы несем как специалист по данным, когда мы работаем с временными рядами, и особенно когда необходим прогноз. Я возьму один конкретный пример, которым является моя текущая работа в довольно крупной бухгалтерской компании во Франции.

С большой силой…

Мне нравится работать с временными рядами. Для меня это самый увлекательный объект, с которым вы можете работать как специалист по данным. У тебя так много возможностей. Они универсальны, например, вы можете использовать такую ​​функцию, как resample внутри модуля pandas в python, что дает вам возможность полностью изменить ритм временного ряда и подойти к нему с новой точки зрения. Возвращаясь к прогнозу, просто чтобы убедиться, что мы с вами придерживаемся одного и того же определения:

Прогнозирование: прогнозирование будущих событий или значений.

Моя текущая миссия состоит в том, чтобы создать систему оценки компании, которая в основном принимает в качестве входных данных различные временные ряды (каждый временной ряд представляет собой KPI) и на их основе использует модель машинного обучения для прогнозирования и построения оценки. Представьте себе эмоции, когда вы думаете, что только что предсказали величину дохода компании на следующие 6 месяцев. Но я думаю, что, как специалисты по данным, мы должны быть очень усердными в своей работе и бить по больным местам, но я действительно верю, что именно так вы становитесь все лучше и лучше.

… Приходит большая ответственность

Итак, вы сделали свой прогноз, вы счастливы, но вдруг вас охватывает сомнение. «Точен ли мой прогноз?» «Был ли мой прогноз лучшим в моем случае?» И я думаю, что это хорошо. Потому что теперь, как и я, вы переработаете его, задокументируете себя, и теперь у вас есть базовый план. Теперь вы можете подумать: «Могу ли я сделать лучше?»

В моем случае мне удается спрогнозировать доход нескольких компаний, но потом я думаю: «Подождите минутку, как я могу убедиться, что мой прогноз хорош?». И что в этом такого: выполнение прогноза в основном означает, что ваша модель способна обобщить процесс генерации ваших данных. Но откуда ты знаешь?

Я пытался спрогнозировать доход на основе предыдущего дохода. Но, в частности, для этого значения, оно зависит от нескольких факторов: количества сотрудников, социального контекста, политических решений и т. д. Что меня действительно интересовало, так это тенденция, и поэтому я перевожу свою проблему из «действительно сложной проблемы, которая требует решения». сильная точность» на «более простой подход, который гарантирует, что мы не берем на себя слишком большую ответственность за вещи, которым нельзя доверять»

Было бы нечестно по отношению к моему начальнику посмотреть ему в глаза и сказать: «Да, я уверен, что доход этой компании будет на этом уровне через 6 месяцев». А если, я не знаю, пандемия выпендривается в течение нескольких месяцев, а политические решения валятся с неба каждую минуту?

Метрики могут быть действительно хорошим оружием для обеспечения качества прогноза. Но это очень сложная задача. Я лично использовал MAPE, MAE и RMSE, но интерпретация действительно сложна. Может быть, потому, что я еще ребенок в науке о данных, но, может быть, еще и потому, что это сложная задача.

И финансы — не единственная сфера, в которой крайне важно обеспечить качество вашего прогноза и знать, когда следует изменить подход. Посмотрите на физику: вы предсказываете, когда произойдет значение X, которое вызовет поломку объекта.

Вывод

В заключение я бы сказал, что самое главное — всегда помнить, что временной ряд, который вы пытаетесь спрогнозировать, — это не абстрактный объект. Это результат сложных взаимодействий в мире со сложными явлениями. Поэтому нам нужно быть особенно осторожными при работе с временными данными.

Он дает вам удивительную силу, но может привести к драматическим последствиям, если вы используете его неправильно.