Вирусы денге передаются людям через укусы инфицированных видов Aedes (Ae. aegyptiилиAe. albopictus). ) комар. Денге распространена более чем в 100 странах мира. Сорок процентов населения мира, около 3 миллиардов человек, проживают в районах с риском заражения денге. Денге часто является основной причиной заболеваний в этих районах.

Я буду использовать данные из Сан-Хуана (Пуэрто-Рико) и Икитоса (Перу), чтобы прогнозировать общее число случаев заражения лихорадкой денге на каждую неделю. Давайте начнем с рассмотрения общего числа случаев денге в зависимости от временного ряда.

Как мы видим выше, у нас есть данные за 18 лет по Сан-Хуану (1990–2007 гг.), но только за 10 лет по Икитосу (2000–2009 гг.). Чтобы бороться с этим, я разделил данные на 2 группы (после разделения обучающих данных на проверочный набор, чтобы избежать утечки) в зависимости от того, к какому городу принадлежали данные. Также трудно увидеть реальную корреляцию на графике выше, поэтому я разработал функцию «месяц», чтобы лучше понять, когда наиболее вероятно возникновение инфекций. Эта особенность оказалась самой важной из всех характеристик данных по Сан-Хуану, как показано на графике ниже.

Метрика оценки, которую я буду использовать для своих моделей, — это средняя абсолютная ошибка.

Я буду использовать его в качестве оценочной метрики, потому что он наказывает выбросы менее жестко, чем другие метрики, такие как среднеквадратическая ошибка (MSE). Это выгодно, потому что мы видим большие всплески числа инфекций на графике выше, и мы хотим иметь возможность предвидеть эти всплески как можно лучше.

Этот график дает нам лучшее понимание наших данных и показывает, что количество случаев заражения в Сан-Хуане начинает расти примерно в июле и снижается, начиная с ноября, в то время как в Икитосе мы видим, что количество случаев заражения начинает расти в августе и снижается в марте.

Это побудило меня провести исследование сезонности Пуэрто-Рико и Перу. Я обнаружил, что климат Пуэрто-Рико тропический, жаркий круглый год, с жарким и душным сезоном с мая по октябрь и относительно прохладным сезоном с декабря по март, а ноябрь и апрель являются промежуточными месяцами.
В Перу есть два сезона из-за его близости к экватору. Они традиционно известны не как лето и зима, а как «лето» сезона дождей/влажностей, которое длится с декабря по март, и «зима» сухого сезона, которая длится с мая по сентябрь.
Неудивительно, что инфекции пик в «жаркий/духлый» сезон в Пуэрто-Рико и «дождливый/влажный» летний сезон в Перу, учитывая, что комарам нравится теплый и влажный климат. Я использовал функцию «месяцы», которую я создал ранее, чтобы спроектировать функцию «сезон», которая оказалась 6-й по важности функцией в данных Икитоса.

Прежде чем мы начнем, я рассчитаю базовую среднюю абсолютную ошибку для Сан-Хуана и Икитоса, получив среднее значение общего числа случаев лихорадки денге в обоих городах.

Базовый показатель MAE в Сан-Хуане: 25,60
Исходный показатель MAE в Икитосе: 7,02

Теперь, когда у нас есть базовый уровень, мы можем перейти к прогнозному моделированию. Мы начнем с модели гребневой регрессии, порядкового кодировщика и простого импутера со стратегией, установленной на наиболее частую. (Просмотреть модель можно здесь.)

MAE регрессии хребта Сан-Хуан: 29,98
MAE регрессии хребта Икитос: 5,63

Мы достигли более низкого MAE, чем наш базовый уровень для Икитоса, но нам все еще нужно построить модель, которая сможет превзойти базовый MAE в Сан-Хуане. Для этого воспользуемся регрессором случайного леса.

Случайный лес Сан-Хуан MAE: 17,97
MAE случайного леса Икитос: 5,82

Как мы видим, регрессор случайного леса намного лучше предсказывал общее количество случаев денге в Сан-Хуане, чем регрессия хребта. Мы можем увидеть снижение MAE на 29,8 % для Сан-Хуана и снижение MAE на 19,8 % для Икитоса с помощью гребневой регрессии. Вот как лучшие модели для каждого города показали себя в сравнении с фактическими данными:

Вывод:

Мы смогли разделить наши данные и использовать разные модели машинного обучения, чтобы добиться более низкого показателя ошибок, чем базовый уровень. Предстоит еще много работы по прогнозированию лихорадки денге. Что вызывает эти быстрые, массовые всплески инфекций? Какую роль изменение климата играет в распространении лихорадки денге? Я думаю, что сезонность обоих городов может быть важнее, чем ее интерпретирует модель. Возможно, еще одна разработка функций улучшит важность функций.

Спасибо за чтение! Если этот набор данных или анализ вас интересует, не стесняйтесь клонировать этот репозиторий GitHub и обязательно поделитесь своим MAE!

Данные для этого проекта поступают из нескольких источников, направленных на поддержку инициативы Предсказать следующую пандемию. Данные эпиднадзора за лихорадкой денге предоставляются Центрами США по контролю и профилактике заболеваний, а также 6-й группой военно-морских медицинских исследований Министерства обороны и Центром наблюдения за состоянием здоровья вооруженных сил в сотрудничестве с правительством Перу и университетами США. Данные об окружающей среде и климате предоставляются Национальным управлением океанических и атмосферных исследований (NOAA), агентством Министерства торговли США. Данные доступны здесь.

Код и контактная информация

Репозиторий GitHub: github.com/JackRossProjects/Лихорадка денге-Предсказание
LinkedIn: linkedin.com/in/jackcalvinross
Веб-сайт: jackrossprojects.com