Прогнозирование уровня воды стало ключевым направлением деятельности политиков в 21 веке, поскольку климат становится более нестабильным, а спрос растет. Правительства сталкиваются с трудными компромиссами между сельскохозяйственным, экологическим, промышленным и муниципальным использованием воды. Наука о данных играет все большую роль в этом секторе. Я просматриваю документ, в котором рассматриваются некоторые из новейших методов и найден оригинальный способ прогнозирования уровня воды в заболоченном месте Упо, одном из крупнейших водно-болотных угодий в Южной Корее и объекте, охраняемом ЮНЕСКО. 4 исследователя написали очень удобную исследовательскую работу о передовых методах машинного обучения для моделирования краткосрочных уровней воды водно-болотных угодий с использованием экзогенных переменных. Ссылку можно найти здесь. В этой статье я резюмирую оригинальные подходы к моделированию временных рядов, которые они использовали.

Данные

Данные исследования поступают от датчика, установленного в 2009 году, который регистрировал уровни воды каждые 10–15 минут с 2009 по 2015 год. Данные были сгруппированы до среднесуточного значения, чтобы быть эндогенной зависимой переменной.

Используемые 8 экзогенных независимых переменных состояли из среднесуточной, максимальной и минимальной температуры, суточных осадков, среднесуточной и максимальной скорости ветра, а также уровней воды в двух соединенных водоемах: дренажном насосе Шинданг и набережной Мокпо, изображенных на рисунке ниже.

Чтобы предсказать на 1 день вперед, данные были отброшены соответственно для прогнозов, что означает наличие 3 разных наборов данных для каждой переменной, а это означает, что всего имеется 24 переменных прогнозирования.

Показатели оценки

Они использовали 4 разные статистические данные оценки для сравнения методов машинного обучения. Они использовали коэффициент корреляции (CC), эффективность Нэша-Сатклиффа (NSE), среднеквадратичную ошибку (RMSE) и индекс стойкости. Каждый обеспечивает различные сильные стороны. Формулы на фото ниже.

Коэффициент корреляции измеряет сходство относительного движения. Он показывает силу линейной корреляции между фактическими и прогнозируемыми значениями по шкале от -1 до +1. Между тем, NSE определяет соответствие значений, нанося прогнозируемые и фактические значения на линию 1: 1 и вычисляя дисперсию линии. Значения NSE от 0 до 1 указывают на более приличную посадку, а отрицательные значения указывают на проблемы. RMSE, как следует из названия, вычисляет среднее значение времени ошибки. Эти меры дают широкое представление о точности модели. Индекс постоянства — это уникальный элемент анализа, о котором я раньше не слышал. Индекс постоянства проверяет фазовую и амплитудную ошибку модели.

Наиболее важным для политиков является прогнозирование экстремальных уровней воды, поэтому они решили сравнить эти модели по 4 случаям пиковых уровней воды в период с 2013 по 2014 год, изображенным ниже, в дополнение к остальной части набора данных. Изоляция этих моментов времени для тестирования была невероятно полезна для сравнения производительности модели в менее распространенных обстоятельствах.

Моделирование

Поскольку это проблема краткосрочного прогнозирования, просто прогнозирование уровня воды на 1–3 дня вперед без сезонности, у них был широкий доступ к потенциальным моделям машинного обучения. При краткосрочном прогнозировании вам не обязательно нужны традиционные модели временных рядов, такие как ARIMA, SARIMAX или экспоненциальное сглаживание. Они обучили и протестировали искусственную нейронную сеть, деревья решений, случайные леса и регрессию опорных векторов. Сравнив оценки модели с использованием 5 различных статистических данных оценки в обычные периоды времени и 4 пиковых периода, они смогли выбрать модель, которая показала наилучшие результаты.

Они потратили время на оптимизацию параметров для каждого типа модели. Для ANN они масштабировали значения от 0 до 1 для лучшей производительности и нашли лучшее количество узлов. Тем временем для деревьев решений они провели собственную «обрезку» (уменьшив количество ветвей, чтобы уменьшить переобучение), запустив перекрестную проверку с функцией стоимости сложности и сравнив перекрестно проверенные оценки стоимости сложности и RMSE. Для своего случайного леса они выбрали 8 лучших прогностических переменных и создали 500 различных деревьев для создания своей функции.

Наконец, для регрессии опорных векторов они использовали функцию радиального базиса, чтобы найти соответствующие параметры. Проще говоря, поддержка векторной регрессии — это продвинутый метод машинного обучения, который включает в себя поиск гиперпараметров в многомерном пространстве, что позволяет разделить классы входной переменной для создания функции, предсказывающей целевую переменную. У Sklearn есть класс SVR для тех, кто хочет поиграть с ним в регрессии. Я также нашел эту статью с ценным руководством для тех, кто хочет больше узнать об этом.

Завершая их моделирование, модель случайного леса была лучшей. На самом деле это была единственная модель с положительным индексом стойкости; тем не менее, все модели показали приемлемые результаты по остальным оценочным статистическим данным. Они обнаружили, что наиболее важными переменными для прогнозирования были вчерашние осадки, вчерашний уровень воды в Мокпхо (изображенный на карте вверху, если вы забыли) и уровень воды три дня назад в Мокпхо.

Заключение

Это было интересное исследование, которое оказало большое влияние на мою собственную работу над временными рядами. В частности, использование нескольких оценочных статистических данных, выходящих за рамки ошибок. Индекс постоянства, поскольку он отслеживает фазу и амплитуду, особенно хорошо подходит для тестирования временных рядов с сезонными данными.

Чтобы ознакомиться с некоторыми из моих собственных работ по временным рядам, перейдите на мой проект GitHub (ссылка здесь) и посмотрите мою последнюю работу по поиску преимуществ машинного обучения временных рядов для калифорнийских водохранилищ.

Ссылка для поиска

https://www.mdpi.com/2073-4441/12/1/93/pdf