Застряли за PayWall? Нажмите здесь, чтобы прочитать всю историю по ссылке моего друга!

Каждый год временной интервал с 1 июня по 30 ноября соответствует сезону ураганов в Северной Атлантике. В этот период теплые воды Атлантического океана порождают тропические циклоны, и некоторые из этих тропических циклонов в конечном итоге выходят на сушу, что приводит к большим человеческим жертвам и материальному ущербу. В 2017 году произошло рекордное количество ураганов, в том числе Харви, Мария и Ирма, ущерб которых превысил 300 миллиардов долларов. Точный прогноз частоты, серьезности и мест выхода на берег имеет важное значение для снижения риска этих дорогостоящих бедствий.

Модель Европейский центр среднесрочных прогнозов погоды (ECMWF) и модели Глобальная система прогнозов национальной метеорологической службы (GFS) широко используются для прогнозирования траекторий штормов. Эти численные модели с большим объемом данных пытаются смоделировать погодные условия на мезомасштабе и требуют больших вычислительных ресурсов. Прогнозирование траекторий штормов и мест выхода на берег является сложной задачей, и на приведенном ниже графике показана неопределенность, связанная с этими прогнозами модели. В этой статье давайте рассмотрим, как мы можем использовать возможности глубокого обучения для разработки модели прогнозирования штормовых путей с использованием LSTMS.

Покажи мне данные:



Как и в более раннем исследовании, мы будем использовать базу данных ураганов в Атлантике (HURDAT2). Набор данных HURDAT предоставляет подробную информацию о местоположении (широта и долгота) каждого шторма через каждые 6 часов от момента возникновения до затухания. Более подробную информацию о наборе данных и исследовательском анализе можно найти здесь. Краткосрочный прогноз (6 часов, 12 часов) траектории урагана относительно прост. В этом исследовании мы построим модель долгосрочного прогнозирования, которая может предсказать путь урагана на несколько дней / недель вперед. Всего существует 1792 исторических шторма, и мы бы использовали 1590 из них для обучения модели нейронной сети.

Функциональная инженерия:

Поскольку мы будем использовать только точку возникновения, чтобы предсказать полный путь, пройденный ураганом, давайте рассмотрим, как мы можем использовать знания предметной области для создания дополнительных функций, которые позволят модели улавливать пространственные закономерности, скрытые в исторических данных.

  1. Преобразование широты и долготы:

Широта и долгота - это два атрибута, которые описывают точку в трехмерном пространстве. Поскольку долгота существует повсюду, два крайних значения на самом деле очень близки друг к другу. Чтобы обойти эту проблему, мы преобразуем координаты широты и долготы в точки на единичной сфере. Это означает, что близкие точки в этих трех измерениях в действительности также близки.

2. Вероятности перехода:

Набор исторических данных показывает, что ураганы после своего возникновения в тропиках распространяются на запад. Вращение ураганов в Северной Атлантике по часовой стрелке и глобальные пассаты направляют ураганы в северо-западном направлении вдоль субтропического хребта. Кроме того, такие факторы, как температура поверхности моря, сила Кориолиса и сдвиг ветра заставляют ураганы делать петли и крутые повороты, что приводит к непредсказуемым траекториям. Чтобы зафиксировать эти пространственные закономерности, мы сначала вычисляем вероятности перехода, наложив сетку 0,25 * 0,25 градуса на исторический отпечаток, и вычисляем вероятности перехода от каждой сетки к другой. Подробности о вычислении вероятностей переходов можно найти здесь. Эти вероятности перехода затем добавляются к каждой строке данных и используются в качестве входных данных для определения следующего местоположения урагана.

3. Кластеризация:

Климатология (точки происхождения, температура поверхности моря, энергия и т. Д.) Определяет траекторию ураганов и вероятность выхода на сушу. Чтобы учесть климатологию, мы сгруппируем ураганы в четыре группы.

Группа I: ураганы, которые берут начало в Восточной Атлантике недалеко от экватора, относятся к группе I. У этих ураганов есть время для накопления энергии над теплыми водами, и они обычно изгибаются вверх.

Группа II. Как и в предыдущей группе, точки возникновения этих ураганов также находятся недалеко от экватора, но ближе к западу. Траектория этих ураганов, как правило, прямая, по направлению к Флориде и Персидскому заливу.

Группа III: эти ураганы происходят дальше от экватора, и они не очень сильные. Их траектории обычно изгибаются и почти не выходят на сушу.

Группа IV: эти ураганы возникли недалеко от Мексиканского залива. Учитывая близость точек генезиса к суше, у этих ураганов нет времени для накопления энергии, но высока вероятность их обрушения.

4. Модульная сеть против. Быстрое кодирование:

Теперь, когда мы сгруппировали ураганы в четыре группы для учета климатологических условий, мы можем либо (а) разработать модульную архитектуру нейронной сети, создав серию из четырех независимых нейронных сетей, модерируемых каким-либо посредником, либо (б) разработать одну модель с помощью обработка определений кластеров как категориальных данных и выполнение однократного кодирования. В этом исследовании мы будем применять однократное кодирование определения кластера.

Построение модели:

Модели с долговременной краткосрочной памятью (LSTM) - это чрезвычайно мощные модели временных рядов. Они могут предсказать произвольное количество шагов в будущее. Модуль (или ячейка) LSTM содержит следующие компоненты: (1) Забыть шлюз, (2) Уровень кандидата, (3) Входной шлюз, (4) Выходной шлюз, (5) Скрытое состояние и (6) Состояние памяти. Поскольку в Интернете доступно множество хороших ресурсов (например, https://colah.github.io/posts/2015-08-Understanding-LSTMs/), чтобы узнать о LSTM, мы не будем вдаваться в подробности внутренней работы LSTM.

Для этого исследования мы разработаем четырехуровневую модель LSTM для прогнозирования местоположения урагана (координаты x, y, z) по одному временному шагу за раз. Результирующий прогноз в момент времени (t) представляет собой обратную связь в качестве входных данных для прогнозирования местоположения урагана на следующем временном шаге (t + 1). Архитектура модели, использованной в исследовании, вместе с ее реализацией на языке Python показана ниже.

Прогнозирование модели

Обученная модель теперь готова делать прогноз. Чтобы проверить надежность модели, давайте воспользуемся ею для ансамблевого прогнозирования Урагана Иван (2004 г.) и Урагана Вильма (2005 г.). На графиках ниже показан фактический путь (сплошные черные линии) этих ураганов, а также ансамблевое предсказание путей с помощью разработанной модели. Учитывая, что мы делаем долгосрочный прогноз (на дни и недели вперед) траектории урагана, используя только точку Генезиса ураганов, прогнозы модели достаточно хороши.

Data Driven vs. Физические модели

Необходимость разработки систем моделирования хорошей погоды не нова, но получение действенных выводов из наборов погодных данных размером в петабайт со смешанными многомерными переменными является сложной задачей (например, моделей глобальной циркуляции). Опираясь на силу моделей, управляемых данными, для выявления случайных взаимозависимостей в многомерных данных, в этом исследовании мы исследовали использование глубокого обучения для моделирования траекторий ураганов только с помощью точек генезиса, и прогнозы модели достаточно хороши.

Если у вас есть мысли или комментарии, оставьте их ниже.