В предыдущем блоге я рассмотрел загрязнение воздуха в Бангкоке зимой. Основным источником загрязнения являются частицы размером менее 2,5 мкм (частицы PM 2,5). Эти частицы меньше ширины человеческого волоса и могут легко проникать в наши тела, даже в нашу кровь. На прошлой неделе (17 марта 2019 г.) во многих провинциях северной части Таиланда был наихудший индекс качества воздуха (AQI) в мире из-за загрязнения частицами. До сих пор не было предложено никакого долгосрочного решения, поскольку источник загрязнения твердыми частицами ТЧ 2,5 не был четко определен. В этом блокноте я определяю источники высоких частиц PM 2,5 в Бангкоке с помощью модели машинного обучения. Код можно найти на моей странице GitHub.

Высокий уровень PM2,5, кто виноваты?

Существуют три основные теории относительно источника загрязнения воздуха в Бангкоке: (1) эффект температурной инверсии, когда холодный воздух вместе с загрязнением задерживается близко к поверхности Земли. Эта теория была предложена правительством в начале зимнего сезона 2019 года. Правительство возложило ответственность за загрязнение на выбросы старых дизельных двигателей. (2) Сжигание сельскохозяйственных культур либо на месте, либо из близлежащих провинций. Зимой по всей стране происходит много открытых сельскохозяйственных сжиганий. Некоторые официальные лица пытались решить проблему загрязнения воздуха за счет сокращения открытого сжигания сельскохозяйственных культур. (3) Загрязнение из других провинций или стран. Некоторые НПО обвиняют в загрязнении близлежащие электростанции.

Моя процедура анализа выглядит следующим образом: построить модель машинного обучения (ML) для прогнозирования уровня загрязнения воздуха в Бангкоке с использованием факторов окружающей среды, таких как погода, индекс трафика и карты пожаров. Включите в модель функции даты и времени, такие как местный час и рабочий день по сравнению с выходными, чтобы отразить другие эффекты от человеческой деятельности. Определите доминирующие источники загрязнения, используя признак важности, предоставляемый моделью ML.

Если источник загрязнения является локальным, то AQI будет зависеть от таких факторов, как погодные условия (скорость ветра, влажность, средняя температура), местное движение и время суток. Если загрязнение вызвано сельскохозяйственным сжиганием, AQI будет зависеть от активных пожаров с некоторым временным лагом, чтобы учесть географическое разделение. Пожарные действия включены в зависимости от удаленности от Бангкока. С другой стороны, если загрязнение не коррелирует с картой пожаров, тогда модель должна уделять больше внимания погодным условиям, таким как направление и скорость ветра.

Вот список функций, которые я рассмотрел, и их источники данных:

  • Информация об активном пожаре из проекта НАСА ФИРМЫ
  • Погода: температура, скорость ветра, влажность и дождь, взятые с веб-сайта Weather Underground.
  • Индекс посещаемости от Longdo Traffic
  • Функции даты и времени: час дня, время дня и праздничные дни (подробно описано в сообщении блога части I)

Позвольте мне сначала пройтись по всем функциям, включенным в модель.

Сжигание сельскохозяйственных культур - серьезная проблема!

Фермеры в Юго-Восточной Азии выбирают январь - март в качестве сезона горения. Для северных и северо-восточных провинций Таиланда эти сжигания достаточно велики, чтобы сделать эти провинции одними из самых загрязненных мест в мире в это время. Что касается Бангкока, кто-то может возразить, что, поскольку регион является в большей степени индустриальным, чем сельскохозяйственным, сжигание сельскохозяйственных культур может не сильно повлиять на него. Но это не так.

Из-за крошечного размера частиц PM 2,5 они остаются взвешенными в атмосфере в течение длительных периодов времени и могут перемещаться на очень большие расстояния. По метеоданным, средняя скорость ветра составляет 10 км / час. Сообщаемый уровень PM 2,5 представляет собой скользящее среднее за 24 часа. По приблизительной оценке, текущее значение PM 2,5 может быть получено из источников на расстоянии 240 км. На приведенном ниже рисунке показана карта пожаров, измеренная спутниками НАСА и указывающая на сжигание сельскохозяйственных культур 8 января 2018 года и 8 февраля 2018 года. Желтым кружком обозначена область в пределах 240 км от Бангкока. Количество пожаров 8 января, которое имеет приемлемый уровень загрязнения, намного меньше, чем количество пожаров 8 февраля, который имеет нездоровый уровень загрязнения.

Фактически, картина возгорания близко совпадает с картиной PM 2.5.

Погодные режимы

Эффект температурной инверсии часто возникает зимой, потому что у земли ниже температура. Более горячий воздух сверху задерживает прохождение холодного воздуха. Эти застойные атмосферные условия позволяют частицам PM 2,5 дольше оставаться взвешенными в воздухе. С другой стороны, более высокая влажность или дождь помогут удалить частицы из атмосферы. Это одна из причин, почему в прошлом, когда загрязнение воздуха было высоким, правительство распыляло воду в воздухе. К сожалению, это смягчение последствий не представляется эффективным, поскольку объем воды ничтожен по сравнению с реальным дождем. Насколько сильно погодные условия влияют на загрязнение воздуха? Давайте сравним зимнюю погоду с погодой в другое время года.

Температура, скорость ветра и влажность зимой ниже, но не намного. Теперь давайте посмотрим на взаимосвязь каждого из них с уровнем PM 2,5.

Более высокая температура (которая нарушает эффект температурной инверсии), скорость ветра и влажность имеют отрицательную корреляцию с уровнем загрязнения.

В ветреные дни загрязнение явно лучше. Медиана распределения уровней PM 2,5 ниже в ветреные дни по сравнению с безветренными днями.

Фактически, уровень загрязнения также зависит от направления ветра, как видно на этом графике. Для простоты я выбрал только четыре основных направления ветра.

В дни, когда ветер дует с юга, уровень загрязнения ниже, потому что Тайский залив находится к югу от Бангкока. Чистый океанский ветер улучшает качество воздуха. Ветер с трех других направлений проходит над сушей. Однако любой ветер лучше, чем застойные атмосферные условия в безветренные дни.

Сдвиг среднего уровня PM 2,5 меньше между дождливыми днями и днями без дождя. Зимой бывает меньше дождливых дней, поэтому данные несколько зашумлены, но можно наблюдать разницу в функции кумулятивной плотности.

Индекс трафика

Одним из источников частиц PM 2,5 являются выхлопные газы двигателей автомобилей. В то время как кампания за более широкое использование общественного транспорта в целом полезна для окружающей среды, эффективность снижения загрязнения PM 2,5 неясна. Вот почему.

Мы видели, что уровни PM 2,5 связаны со временем суток. Загрязнение ниже около 15:00, но остается высоким в ночное время. При сопоставлении с данными о трафике связь с уровнем загрязнения очень шумная. Кажется, нет сильной корреляции.

Включение в модель времени суток и информации о буднем и выходных днях может сделать взаимосвязь более ясной.

Процесс авторегрессии

Текущее значение PM 2.5 также может зависеть от предыдущего значения. График частичной автокорреляции ниже показывает сильную корреляцию с задержкой в ​​1 час, что означает, что уровень PM 2,5 является процессом авторегрессии. Таким образом, я включаю в модель средние значения за 24 часа с ограничением, что модели разрешено видеть только предыдущее значение для будущих прогнозов. Важность этой особенности должна быть напрямую связана с тем, как долго частицы остаются в атмосфере.

Модель машинного обучения

На рисунке ниже показана дедрограмма всех входных функций, рассчитанных на основе корреляции Спирмена. Дендрограмма помогает определить лишние элементы, которые можно удалить из модели. Количество пожаров на разных расстояниях и уровень PM 2,5 тесно связаны. Другие функции еще дальше. В итоге я использовал все эти функции в модели.

Чтобы определить основной вклад в загрязнение, я использовал случайную регрессию лесов, чтобы соответствовать модели из-за ее простоты и легкости интерпретации. Во время настройки гиперпараметров 25% данных было выделено для набора проверки. Модель была повторно обучена с использованием всего набора данных. Модель достигает 0,99 R-квадрата на обучающей выборке. Поскольку цель этого исследования - понять источники загрязнения воздуха в прошлом, я сосредоточился на обучающем наборе. На графике ниже ранжируется важность каждого из факторов. Важность рассчитывается по уменьшению значений R-квадрата при перестановке столбцов и повторной нормализации суммы всех столбцов.

Как и ожидалось, предыдущий уровень загрязнения является наиболее важным показателем. Далее следует количество пожаров от ближайшего к самому дальнему. Количество пожаров на расстоянии 720 км больше влияет на качество воздуха, чем местная влажность, движение транспорта или даже дождь. Час дня является более важным предсказателем, чем индекс посещаемости. Среди погодных условий наиболее важной характеристикой является влажность.

Влияние каждой функции проиллюстрировано ниже с использованием древовидного интерпретатора данных на 13 января 2019 г. в 8:00 с уровнем 96 PM 2.5.

Мы начинаем со среднего значения 26. Уровень PM 2,5 за предыдущий час составлял 62, таким образом, модель добавляет значение 20. В радиусе 240 км произошло 150 пожаров, таким образом, модель добавляет 10 к уровню загрязнения. Теперь это значение 56. Есть 1649 пожаров на расстоянии 240–480 км и 896 пожаров на расстоянии 480–720 км, и модель добавляет значение 9 и 8 соответственно. Небольшая скорость ветра и утренний час пик (8 часов утра) прибавляют модели 8. Эти шесть основных факторов составляют 81 из 96 прогнозируемых для уровня PM 2,5. Остальные элементы справа менее важны и, следовательно, меньше увеличивают прогнозируемое значение загрязнения.

В хороший день, например, 2 февраля 2019 года в 19:00, уровень PM 2,5 был равен 10. Уровень загрязнения в предыдущий час был низким, поэтому модель вычитает значение 10. В этом районе все еще было много пожаров, и модель добавляет значение 2. Скорость ветра была высокой, уменьшив значение на 2. Погода и движение были хорошими. Сочетание многих факторов приводит к низкому прогнозируемому уровню PM 2,5, равному 10.

Выводы

Уровень PM 2.5 имеет сложную взаимосвязь с различными факторами: количеством пожаров, погодными условиями и дорожным движением. Но этот анализ подтверждает подозрение, которое есть у многих людей - сжигание сельскохозяйственных отходов является основной причиной загрязнения PM 2,5 в Таиланде. Горящие работы на расстоянии до 720 км от Бангкока, в районе, который простирается до Мьянмы, Лаоса и Камбоджи, могут вызвать проблемы с воздухом в Бангкоке. Решить эту проблему будет непросто. Это потребует совместных международных усилий стран Юго-Восточной Азии.

Я оставляю вам карту огня от 17 марта 2019 года, одного из худших дней в истории!