Лихорадка денге - давняя проблема на Филиппинах. Благодаря тропической погоде и продолжительному сезону дождей Филиппины являются хорошей средой для размножения комаров-переносчиков вируса. К сожалению, от лихорадки денге нет лекарства, а для тех, кому не повезло, укусил плохой штамм, она может быть фатальной.

Прогнозирование количества случаев само по себе помогает подготовиться к возможной предстоящей вспышке. Однако, в частности, для местных властей может возникнуть следующий вопрос: где именно мы ожидаем большого количества случаев? Обнаруживая очаги лихорадки денге, официальные лица могут определять приоритетные районы, где будут проводиться тесты на присутствие комаров и проверка застоявшейся воды, что поможет снизить вероятность возникновения вспышки.

Контекст

Барангай - это самая маленькая географическая единица на Филиппинах, примерно эквивалент округа в США. Первичные медико-санитарные услуги (предположительно) предоставляются медицинскими пунктами в каждом барангае, а барангаи достаточно малы, чтобы дать хорошее представление о том, где именно следует направлять меры по борьбе с лихорадкой денге.

Другими словами, я ответил на вопрос «Где мы прогнозируем вспышку денге?», Отвечая: «В каком барангае мы прогнозируем вспышку денге?»

Методы

Данные о денге были взяты из записей PhilHealth за 2016–2018 гг., Полученных от г-на Уилсона Чуа и проекта отслеживания переписи населения Mosquito в реальном времени (ознакомьтесь с ними!). Адреса были привязаны к Google API, а затем сопоставлены с их шейп-файлами barangay, полученными от PhilGIS.

Возможности

Нормализованный разностный водный индекс (NDWI)

Вода часто служит хорошей питательной средой для комаров, что может служить хорошим предсказателем. Это было количественно определено с помощью NDWI, который использует разницу между длинами волн, поглощаемых и отраженных светом, для картирования областей с высокой и низкой концентрацией воды. Используя данные Google Earth Engine и Sentinel-2, значения NDWI были усреднены для каждого барангая и вычислены для каждого месяца в период с 2016 по 2018 год.

Доля поглощенного фотосинтетически активного излучения (FAPAR)

Как и вода, растительность также служит хорошей средой для размножения комаров, что можно количественно определить с помощью FAPAR. Он работает по тем же принципам, что и NDWI, но с другими спектральными полосами, которые вода отражает и поглощает. Данные также были получены и обработаны из Google Earth Engine и Sentinel-2.

Население и плотность

Значения численности населения и плотности населения были получены Барангаем с использованием данных PSA за 2015 год.

Переменные даты

Месяцы и годы использовались в качестве входных характеристик модели.

Целевые переменные

Используя данные PhilHealth, мы суммировали количество случаев денге каждый месяц по каждому барангаю. Были сгенерированы три бинарные целевые переменные:

  • Низкий риск: в Барангае был зарегистрирован как минимум 1 случай лихорадки денге в этом месяце.
  • Средний риск: в Барангае было не менее 10 случаев лихорадки денге в этом месяце.
  • Высокий риск: в Барангае было не менее 20 случаев лихорадки денге в этом месяце.

Эти значения являются произвольными и были выбраны для изучения точности прогнозов модели с различными целями.

Модели

Первоначальное сканирование данных показало, что возникновение денге было относительно аномальным - из 4825 записей 25% имели как минимум 1 случай денге, 12% - как минимум 10 случаев и 4,4% - как минимум 20.

Чтобы учесть это, набор данных был сбалансирован с помощью SMOTE, который генерирует новые данные, беря средние точки текущих данных. В результате был получен набор данных, в котором половина строк была положительной для денге, а половина - отрицательной. Уравновешивая данные, модели, которые мы обучили, не будут склонны предсказывать один результат по сравнению с другим.

Затем мы реализовали повышение градиента - модель машинного обучения, которая итеративно взвешивает входные данные, чтобы настроить модель для классификации строк, которые модель ранее не могла классифицировать. Это позволяет ему сосредоточиться на аномальных данных, которые он, возможно, изначально не мог правильно классифицировать, и взвесить эти записи так, чтобы модель была настроена так, чтобы правильно классифицировать ранее неправильно классифицированные барангаи.

Мы исследовали три варианта повышения градиента: обычное повышение градиента, XGBoost и Light GBM.

Полученные результаты

Эти модели показали наилучшие результаты при прогнозировании районов с высоким риском засвидетельствования случаев лихорадки денге. Среди трех моделей LGBM лучше всего справлялся с прогнозированием областей высокого риска (точность 97,47%), тогда как XGBoost лучше справлялся с прогнозированием областей среднего (93,67%) и низкого риска (80,84%). Сравнивая эти результаты с чисто случайным предположением (50,00%) - покажите, что характеристики моделей не так уж и плохи.

Почему модели лучше работают в случаях высокого риска?

Может случиться так, что нет четкой разницы между NDWI или плотностью населения между барангаем без случаев лихорадки денге и барангаем с одним случаем, что усложняет модели классифицировать барангаи как группы низкого риска или нет. Однако могут быть большие различия между барангаем без случаев и 20 случаями, что упрощает моделирование прогнозирования областей высокого риска, о чем свидетельствует более высокая достигнутая точность.

Однако стоит отметить, что для создания сбалансированных наборов данных было условно (по сути создано) множество данных, особенно в случае областей среднего и высокого риска. Поскольку эти данные генерируются, они соответствуют шаблонам существующих данных и не содержат шума от реальных данных, что, в свою очередь, может облегчить моделям создание более точных прогнозов. Для нас это означает, что, хотя модели высокого риска хорошо работают с нашими сгенерированными данными, мы не уверены, насколько хорошо они могут работать с будущими реальными данными.

Какие переменные больше всего повлияли на отнесение барангаев к группе риска (или нет) для лихорадки денге?

Используя график SHAP, мы можем визуализировать, какие переменные больше всего повлияли на процесс принятия модели при классификации барангаев как подверженных риску лихорадки денге. Значения SHAP показывают, насколько переменная сдвигает прогноз модели в пользу или против классификации барангая как положительного по денге.

Чтение графика: разброс переменной указывает диапазон влияния, которое она оказывает на прогнозы модели. Чем шире разброс, тем больше влияние переменной. Если красные точки справа, а синие значения слева, это означает, что переменная положительно коррелирует с более высокой вероятностью лихорадки денге. Наличие синих точек справа и красных слева указывает на то, что эта переменная отрицательно коррелирует с лихорадкой денге.

Поскольку мы использовали бинарный индикатор (0 означает отсутствие денге, 1 означает денге), значение SHAP, равное 0,50 переменной популяции для одного барангая, указывает на то, что популяция барангаев увеличила прогнозируемую вероятность риска заражения лихорадкой денге на 50%.

Результат. Население оказывает наибольшее влияние на показатель риска лихорадки денге для барангая. Как и ожидалось, это положительная корреляция: чем больше людей, тем выше риск лихорадки денге. Переменная месяца (от 1 до 12 для каждого месяца) также показывает положительную корреляцию, что совпадает с тенденциями сезона дождей. Месяцы в начале года относительно засушливые, поэтому «низкие» значения месяцев (с февраля по май, обозначенные от 2 до 5) связаны с низким риском развития лихорадки денге, тогда как более влажные и «более высокие» значения месяцев (с июля по октябрь, отмечены от 7 до 10) связаны с более высоким риском денге.

Комментарии: Результаты были довольно неожиданными - я ожидал, что FAPAR, NDWI и плотность населения окажут наибольшее влияние, потому что они напрямую определяют количество осадков, растительность и плотность населения, которые напрямую связаны с размножением и ростом комаров. . Однако оказалось, что население и месяц были гораздо более эффективными. Это может быть связано с проблемами качества данных с FAPAR, NDWI или плотностью, или они могут быть не такими предсказуемыми, как я думал!

Ну и что?

В этом проекте мы рассмотрели использование информации о барангае для прогнозирования вероятности того, что у него будет хотя бы 1 случай денге, более 10 случаев и более 20 случаев. Затем мы выяснили, что барангаи с высокой численностью населения наиболее подвержены лихорадке денге в последние месяцы года. Для Кесон-Сити это означает, что при выборе места для реализации программ смягчения последствий денге они должны отдавать приоритет барангаям с наибольшим населением и делать это с началом сезона дождей.

Код и благодарность

Посмотрите код здесь: https://github.com/ljyflores/Dengue-Prediction.git

Огромное спасибо г-ну Уилсону Чуа за его руководство и руководство, а также Мириам Оливарес и Т.К. Чакраборти из Йельского центра науки и информации по социальным наукам за их помощь в разработке функций.