Модели машинного обучения часто критикуют за их «черный ящик»; то есть часто трудно понять, как модель машинного обучения делает свои прогнозы. Это может затруднить объяснениепочему модель машинного обучения пришла к определенному прогнозу.

Модификация модели машинного обучения также может быть сложной и трудоемкой, если она не работает должным образом.

1. Возможно, это не самый оптимальный подход к точному прогнозированию.

Известно, что модели машинного обучения отлично подходят для многих приложений, но не все параметры прогнозирования можно отнести к этой группе. Почему это? Модель машинного обучения обычно требует 5 000–10 000 наблюдений для получения оптимальных результатов. Однако при прогнозировании часто бывает всего 50–500 наблюдений. В этих условиях эконометрические модели, основанные на методах статистического обучения, часто могут дать лучшие результаты. Эти модели настроены так, чтобы улавливать только закономерности и тенденции, которые на самом деле повышают точность прогнозов, обходя потребность в больших объемах данных.

2. Модели машинного обучения могут быть нестабильными и склонными к переобучению.

Переобучение может произойти, если данные, используемые для обучения модели, слишком специфичны для этого периода времени. Это создаст модель, которая будет иметь хорошую подгонку в выборке, но не будет хорошо работать вне выборки. Можно сказать, что модель действительно хорошо описывает прошлое в целом, но не способна распознавать отдельные закономерности и события. Это может привести к неточным прогнозам, если будущее, которое должно быть предсказано, не очень похоже на прошлые события. Это ключ к оценке производительности вне выборки, а не только производительности в выборке. Производительность модели может выглядеть образцовой на наборе данных, на котором она была обучена, но фактическую производительность можно увидеть только при тестировании на новом наборе данных. Поскольку модели машинного обучения более сложны, учитывая большее количество параметров, чем их статистические аналоги, они также более склонны к переоснащению.

Как избежать переобучения моделей прогнозов?

Один из способов — автоматическое тестирование целого ряда статистических моделей, таких как варианты VAR и VECM (чтобы перечислить несколько примеров), и взвешивание их всех вместе на основе их производительности вне выборки. Вот как вы можете гарантировать, что сгенерированные числа не зависят от субъективности. Использование Lasso и других методов регуляризации и их настройка с помощью перекрестной проверки — еще один способ минимизировать дисперсию и избежать переобучения.

3. Модели могут быть дорогими в создании и обслуживании

Построение модели машинного обучения может быть дорогостоящим, особенно если ее необходимо настраивать для ваших конкретных данных. Кроме того, вам может потребоваться нанять специалиста по данным или эксперта по машинному обучению для обслуживания и обновления вашей модели по мере изменения ваших данных.

Машинное обучение самодостаточно, но подвержено ошибкам. Предположим, вы обучаете модель на наборах данных, которые слишком малы, чтобы позволить модели фиксировать тенденции и шаблоны, которые являются достаточно общими. В результате модель машинного обучения может неправильно интерпретировать окончательные наблюдения перед прогнозом. В конечном счете, вы рискуете получить предвзятые результаты прогнозов, предполагающие принятие бизнес-решений, зависящих от этих цифр.

Такие просчеты могут вызвать цепочку ошибок, которые могут оставаться незамеченными в течение длительного периода времени. Когда они, наконец, выявятся, потребуется много времени (и усилий) на выявление источника проблемы, а еще больше времени на ее исправление.

Опираясь на новейшие методы статистического обучения, Indicio определяет опережающие индикаторы за считанные минуты и оптимизирует их для получения наиболее точного прогноза.

Закажите демонстрацию и улучшите процесс прогнозирования и его точность.

Первоначально опубликовано наhttps://www.indicio.com/resources/the-drawbacks-with-machine-learning-models-that-data-science-platforms-never-talk-about 26 сентября 2022 г.