Этот блог является продолжением предыдущего вводного блога. В этом блоге я исследую шаблоны данных COVID в сочетании с демографией и мобильностью, которые в дальнейшем используются в расширенной модели SIRD в следующем блоге.

Коды, которые генерируют результаты в блогах, доступны по адресу https://github.com/zl3311/COVID_prediction_US.

Государственная демография

Поскольку влияние COVID на людей с разным демографическим прошлым может быть разным, я сначала анализирую демографическую картину в разных штатах. Я собрал демографический набор данных из Бюро переписи населения США, который включает возраст, пол и расовые характеристики в каждом штате. Я суммирую распределение этих трех характеристик по состояниям на следующих рисунках.

Численность населения

На следующем рисунке показана численность населения в каждом штате.

Я наблюдаю, что:

  • Калифорния, Техас, Флорида и Нью-Йорк более густонаселены, чем остальные штаты.
  • В целом, восточные штаты более густонаселенные, чем западные, за исключением четырех штатов, указанных выше.

Соотношение полов

Здесь я определяю соотношение полов как размер популяции мужчин, деленный на популяцию женщин в каждом штате. На следующем рисунке показано соотношение полов в каждом штате.

Я наблюдаю, что:

  • В северо-западных штатах (включая Аляску) преобладают мужчины.
  • В штатах юго-восточного побережья преобладают женщины.
  • Остальные состояния относительно сбалансированы.

Государственное соотношение рас

Здесь я определяю коэффициент населения штата для расы как размер населения расы, деленный на всю численность населения штата, и это описание расы большинства штата. На следующих рисунках показано соотношение населения штата в каждом штате.

Я наблюдаю, что:

  • Белая раса - основная популяция почти во всех штатах, особенно в северных штатах.
  • Черная раса густо распространена по юго-восточным штатам.
  • Американские индейцы / коренные жители Аляски более густонаселенны на Аляске и в некоторых западных штатах.
  • Азиатская раса более густонаселенна на Гавайях и в Калифорнии.
  • Раса коренных жителей Гавайев более густонаселенна на Гавайях.
  • Латиноамериканская раса более густонаселенна в южных штатах.
  • Многонациональные люди более распространены на Гавайях, чем в других штатах.

Распределение рас

Здесь я определяю распределение рас как долю размера популяции расы, находящейся в государстве, деленную на всю численность населения расы, и это описание рассредоточения расы. На следующих рисунках показано распределение гонок по штатам.

Я наблюдаю, что:

  • Неудивительно, что белые люди, как раса большинства, распределяются одинаково с распределением всего населения.
  • Большинство чернокожих живет в Техасе, Флориде и Джорджии.
  • Большинство американских индейцев / коренных жителей Аляски живут в Аризоне и Оклахоме.
  • Большинство азиатов живут в Калифорнии.
  • Большинство коренных гавайцев живут в Калифорнии и на Гавайях.
  • Большинство мультирасовых проживает в Калифорнии.
  • Большинство выходцев из Латинской Америки проживают в Калифорнии и Техасе.

Государственное соотношение возрастных групп населения

Здесь я классифицирую людей в возрасте от 0 до 9 лет как возрастную группу «0+» и людей в возрасте от 10 до 19 лет как возрастную группу «10+». Аналогично для всех людей младше 80 лет. Для людей старше 80 лет я обозначаю этих людей возрастной группой «80+». Затем я определяю коэффициент населения штата возрастной группы как размер населения возрастной группы, деленный на всю численность населения данной возрастной группы, и это описание возрастной группы большинства штата. Следующие цифры показывают соотношение населения штата в разных возрастных группах.

Я наблюдаю, что:

  • Распределение возрастных групп одинаково по штатам.
  • 0+, 10+, 20+, 30+, 40+, 50+ и 60+ одинаково влияют на размер всей популяции. 70+ и 80+ - меньшинства.

Распределение возрастных групп по штатам

Здесь я определяю распределение по возрастным группам как долю численности населения возрастной группы, находящейся в состоянии, деленную на всю численность населения данной возрастной группы, и это описание разброса по возрастным группам. На следующих рисунках показано распределение возрастных групп по штатам.

Я наблюдаю, что:

  • Распределение по возрастным группам в основном аналогично распределению по всему населению.
  • Пожилые люди (70+ и 80+) немного больше склонны жить во Флориде, чем другие возрастные группы.

Хотя демографическая информация не имеет прямого отношения к COVID, позже я использую ее в качестве дополнительной информации для оценки уровня смертности от COVID.

Данные общественного наблюдения за COVID

Я собрал набор данных общественного наблюдения за COVID из Центров по контролю и профилактике заболеваний (CDC), который включает возраст, пол, расовые характеристики и клиническое состояние (включая смерть или нет) возможных и подтвержденных пациентов с COVID для всей страны без географической информации. . Несмотря на полезную информацию, содержащуюся в этом наборе данных, я также заметил, что около 40% записей имеют пропущенные значения. Я подозреваю, что это связано с частным характером демографической информации, и не каждый готов самостоятельно сообщать такую ​​информацию, позволяющую установить личность (PII). Для согласованности набора данных я решил удалить эти записи из нашего анализа, что может вызвать смещения выборки. Учитывая демографическую информацию в каждом штате, как это кратко изложено выше, я резюмирую разрушительную силу COVID над маргинальным распределением различных демографических сообществ по всей стране. На следующем рисунке показаны гистограммы смертности и подтвержденного показателя для различных пола и возрастных групп (столбцы ошибок представляют изменчивость по расам).

Я наблюдаю, что:

  • Смертность от COVID монотонно растет по сравнению с возрастной группой.
  • Хотя подтвержденный COVID показатель среди женщин выше, чем среди мужчин, уровень смертности среди женщин на самом деле ниже, чем среди мужчин.
  • Разброс подтвержденного соотношения между расами выше, чем уровень смертности.

На следующем рисунке показаны гистограммы смертности и подтвержденного показателя для различных рас и возрастных групп (столбцы ошибок представляют изменчивость над полом).

Я наблюдаю, что:

  • Уровень смертности от COVID среди азиатов заметно выше, чем среди других рас, особенно среди азиатов старшего возраста.
  • Подтвержденный COVID уровень мультирасовых людей выше, чем у азиатов, а у белых самый низкий. Остальные расы похожи.

На следующем рисунке показана тепловая карта подтвержденного показателя для разных рас и возрастных групп и их половых различий.

Я наблюдаю, что:

  • Подтверждено больше мужчин, чем женщин для пожилых людей (60+, 70+, 80+) большинства рас.
  • Среди подростков и взрослых подтверждено больше женщин, чем мужчин (от 10+ до 50+).

На следующем рисунке показана тепловая карта уровня смертности для разных рас и возрастных групп и их половых различий.

Я наблюдаю, что:

  • Мужчины чаще умирают от COVID для всех рас и возрастных групп, и эта тенденция более очевидна для пожилых людей.

Подводя итог этому подразделу, я показал подтверждение и уровень смертности от COVID для разных демографических групп. Из-за возможных проблем с PII надежность наблюдений может быть не полностью достоверной, но они дают общее описание того, насколько смертоносен COVID для разных групп населения.

Ежедневный отчет о COVID

Я также собрал ежедневную запись о COVID из Университета Джона Хопкинса (JHU) в каждом штате, включая ежедневно обновляемое совокупное количество людей, прошедших тест на COVID, подтвержденных как пациентов с COVID, выздоровевших от COVID и умерших от COVID. Обратите внимание, что определение умерли от COVID неоднозначно, потому что люди могут умереть естественным путем, независимо от COVID. Здесь я уточняю термин умер от COVID, поскольку правительство сообщило о количестве смертей от COVID, которое в основном представляет собой количество смертей тестеров COVID. Однако само это определение не является последовательным на всем временном горизонте для правительства, и я подозреваю, что резкие изменения в некоторых штатах могут быть связаны с изменением этого определения.

Прежде чем погрузиться в анализ этого набора данных, естественно подумать о разнице между ранее проанализированными и наблюдаемыми подтвержденными показателями смертности. Одно из ключевых предположений заключается в том, что люди, проходящие тесты на COVID и подтвержденные как пациенты с COVID в каждом штате, представляют собой объективную выборку всего населения штата. Учитывая, что я удалил 40% записей CDC COVID за отсутствующие значения, я не думаю, что оценка уровней подтверждения COVID с использованием этих данных статистически надежна. Однако из-за относительного обилия оставшихся чистых данных я также предполагаю, что чистые данные представляют собой объективную и достаточную подгруппу пациентов с COVID, чтобы надежно вывести уровень смертности для различных демографических сообществ. Я вычисляю уровень смертности для каждой комбинации демографических категорий и взвешиваю его с фактической долей демографического распределения различных штатов. Я называю это «демографически скорректированным коэффициентом смертности». Затем я сравниваю этот скорректированный коэффициент смертности с фактическим наблюдаемым уровнем смертности в последнем ежедневном отчете, как показано на следующем рисунке.

Я наблюдаю, что:

  • Для большинства штатов наблюдаемая смертность ниже скорректированной смертности. Если предположить, что вероятность заражения для определенной группы населения не зависит от географического расположения, это наблюдение означает, что уязвимые люди в этих государствах более осторожны в отношении заражения и действуют более самозащитно.

Из-за такого зависимого от состояния осознания самозащиты скорректированный коэффициент смертности - не лучшая оценка наблюдаемого уровня смертности. Вместо этого я просто использую наблюдаемый уровень смертности за последний день в записи как истинный уровень смертности для штата в общей модели. Точно так же я вычисляю истинную скорость восстановления, используя запись таким же образом.

Теперь я сосредоточусь исключительно на наборе данных ежедневного отчета JHU. Что касается совокупного количества тестов COVID в каждом штате, я заметил, что тенденция плавно увеличивается с большей скоростью, несмотря на некоторые резкие изменения по неизвестным причинам. Следуя хорошо известному правилу «бритвы Оккама», я просто выбираю форму квадратичной функции без пересечения в качестве модели временных рядов, а не более причудливые модели временных рядов, такие как ARIMA или LSTM. Оказалось, что эта простая модель неплохо работает с R² ›0,9 между истинным и подобранным временными рядами для всех штатов, начиная с 12 апреля 2020 года, что является датой начала тестов COVID, записанных в этом наборе данных. Что касается ограничений по объему, я представляю результаты только для Калифорнии, Округа Колумбия, Флориды, Техаса и Нью-Йорка, как показано на следующих рисунках.

Что касается кумулятивного числа подтвержденных случаев, я заметил, что тенденция со временем носит шумный характер. Фактически, необработанные временные ряды количества тестов на COVID также зашумлены. Как упоминалось ранее, я хотел бы оценить временной ряд подтвержденного показателя, который представляет собой количество подтвержденных случаев, разделенное на количество тестовых случаев. Как правило, разделение двух временных рядов со случайными шумами вызывает шумы еще более высоких порядков. По этой причине я применяю 7-дневное скользящее среднее как к временным рядам подтвержденных случаев, так и к тестовым случаям и вычисляю временной ряд с подтвержденной скоростью путем поэлементного деления двух временных рядов. Обратите внимание, что в реальной жизни между сдачей теста и получением результата есть задержка. Эта задержка может составлять от нескольких дней до даже более недели в зависимости от доступности медицинских ресурсов. Несмотря на возможную ошибку игнорирования этого временного лага, я все же предпочитаю игнорировать его и предполагаю, что результат теста известен мгновенно. Я думаю, что этот временной лаг относительно невелик по сравнению со всем горизонтом моделирования, и в любом случае точный временной интервал неизвестен. Что касается количества случаев смерти и выздоровления, я также заметил, что они шумные. Тем не менее, с точки зрения смертности от болезней, уровень смертности и выздоровления должен быть относительно стабильным, когда вакцины нет. Несмотря на противоречие со здравым смыслом, я предпочитаю игнорировать это расхождение и использовать последний кумулятивный коэффициент смертности и выздоровления как фиксированный коэффициент смертности и выздоровления на всем временном горизонте. Как и в случае с подтверждением, я предпочитаю игнорировать задержку смерти и выздоровления и предполагать, что фиксированная доля подтвержденных пациентов с COVID умирает или выздоравливает каждый день, независимо от их подтвержденной даты. Для ограничения объема я показываю временные ряды связанных переменных только для Калифорнии, Округа Колумбия, Флориды, Техаса и Нью-Йорка, как показано на следующих рисунках.

Мобильность

Я собрал набор данных о мобильности в Бюро транспортной статистики для каждого округа, включая количество людей, путешествующих и остающихся дома, и их схемы передвижения в каждом округе, и я считаю, что данные о мобильности являются хорошим предиктором подтвержденного показателя. Схема движения описывается в виде общего количества поездок и количества поездок различных диапазонов, а именно ‹1 миля, 1–3 мили, 3–5 миль, 5–10 миль, 10–25 миль, 25– 50 миль, 50–100 миль, 100–250 миль, 250–500 миль и ≥500 миль. Подобно ежедневному отчету COVID, я применил некоторую обработку данных и к данным о мобильности. Во-первых, я уменьшаю разрешение этого набора данных до уровня штата, суммируя все данные округа по их соответствующему состоянию. Во-вторых, я создаю дополнительную переменную, называемую коэффициент пребывания дома, которая представляет собой частное отношение населения, остающегося дома, ко всему населению штата. Концептуально это соотношение может быть дополнительным представлением желания людей оставаться дома в дополнение к абсолютным числам. В-третьих, я применил скользящее среднее за 30 дней ко всем этим переменным мобильности. Я считаю, что более длительная история мобильности больше связана с вероятностью подтверждения, чем только текущий день, и я выбираю этот диапазон прошлой истории равным 30 дням. В-четвертых, я делю эти скользящие средние на количество населения штата как версию абсолютных чисел на человека. Обратите внимание, что я не включаю в эту процедуру переменную оставайся дома, потому что изменение масштаба этой переменной на фиксированную константу не дает дополнительной информации для модели прогнозирования. Наконец, я отбрасываю все исходные переменные, потому что только один день не является хорошим описанием инфекции, как упоминалось ранее. Я обозначаю скользящие средние суффиксом _r30, а версии на человека суффиксом _pp, как в обозначениях рисунков, перечисленных ниже.

  • Active_Ratio_r7: скользящее среднее дневного отношения подтвержденных / активных за последние 7 дней состояния.
  • Пребывание дома Ratio_r30: скользящее среднее ежедневное нахождение дома соотношение за последние 30 дней штата.
  • Пребывание дома Ratio_r30: скользящее среднее ежедневное нахождение дома соотношение за последние 30 дней штата.
  • Население, находящееся дома_r30: скользящее среднее количество населения, которое ежедневно остается дома за последние 30 дней штата.
  • Население, не находящееся дома_r30: скользящее среднее количество населения, не находящегося дома ежедневно в течение последних 30 дней штата.
  • Number of Trips_r30: скользящее среднее ежедневного количества поездок за последние 30 дней состояния.
  • Number of Trip ‹1_r30: скользящее среднее ежедневного количества поездок на расстояние менее 1 мили за последние 30 дней состояния.
  • Количество поездок 1–3_r30: скользящее среднее ежедневного количества поездок на расстояние от 1 до 3 миль за последние 30 дней штата.
  • Количество поездок 3–5_r30: скользящее среднее ежедневного количества поездок на расстояние от 3 до 5 миль за последние 30 дней штата.
  • Number of Trip 5–10_r30: скользящее среднее ежедневного количества поездок на расстояние от 5 до 10 миль за последние 30 дней штата.
  • Количество поездок 10–25_r30: скользящее среднее ежедневного количества поездок на расстояние от 10 до 25 миль за последние 30 дней штата.
  • Количество поездок 25–50_r30: скользящее среднее ежедневного количества поездок на расстояние от 25 до 50 миль за последние 30 дней штата.
  • Количество поездок 50–100_r30: скользящее среднее ежедневного количества поездок на расстояние от 50 до 100 миль за последние 30 дней штата.
  • Number of Trip 100–250_r30: скользящее среднее ежедневного количества поездок на расстояние от 100 до 250 миль за последние 30 дней штата.
  • Количество поездок 250–500_r30: скользящее среднее ежедневного количества поездок от 250 до 500 миль за последние 30 дней штата.
  • Количество поездок ›= 500_r30: скользящее среднее ежедневного количества поездок на расстояние более 500 миль за последние 30 дней штата.
  • Number of Trips_r30_pp: скользящее среднее ежедневное количество поездок на человека за последние 30 дней штата.
  • Количество поездок ‹1_r30_pp: скользящее среднее ежедневное количество поездок на человека менее 1 мили за последние 30 дней состояния.
  • Number of Trip 1–3_r30_pp: скользящее среднее количество поездок за день на человека, не находящегося дома, на расстояние от 1 до 3 миль за последние 30 дней штата.
  • Количество поездок 3–5_r30_pp: скользящее среднее количество поездок за день на человека, не находящегося дома, на расстояние от 3 до 5 миль за последние 30 дней штата.
  • Number of Trip 5–10_r30_pp: скользящее среднее ежедневное количество поездок на человека, не находящегося дома, на расстояние от 5 до 10 миль за последние 30 дней штата.
  • Количество поездок 10–25_r30_pp: скользящее среднее ежедневное количество поездок на человека, не находящегося дома, на расстояние от 10 до 25 миль за последние 30 дней штата.
  • Количество поездок 25–50_r30_pp: скользящее среднее количество поездок за день на человека, не находящегося дома, на расстояние от 25 до 50 миль за последние 30 дней штата.
  • Количество поездок 50–100_r30_pp: скользящее среднее ежедневное количество поездок на человека, не находящегося дома, на расстояние от 50 до 100 миль за последние 30 дней штата.
  • Number of Trip 100–250_r30_pp: скользящее среднее ежедневное количество поездок на человека, не находящегося дома, на расстояние от 100 до 250 миль за последние 30 дней штата.
  • Количество поездок 250–500_r30_pp: скользящее среднее ежедневное количество поездок на человека, не находящегося дома, от 250 до 500 миль за последние 30 дней штата.
  • Количество поездок ›= 500_r30_pp: скользящее среднее количество поездок за день на человека, не находящегося дома, на расстояние более 500 миль за последние 30 дней штата.

Для ограничения места я показываю временные ряды 30-дневного скользящего среднего коэффициента продолжительности пребывания дома и количество поездок на одного человека лиц, не сидящих дома, для Калифорнии, округа Колумбия, Флориды, Техаса и Только Нью-Йорк, как показано на следующих рисунках.

Я наблюдаю, что тенденция людей, желающих оставаться дома, уменьшается в мае и июне, а затем остается в основном стабильной для пяти штатов. Фактически, эта тенденция одинакова для всех 50 штатов, и я не перечисляю их по пространственным ограничениям. Для людей, которые не сидят дома, наблюдается существенная закономерность в среднем количестве поездок на человека по будням и выходным, в то время как в выходные дни люди путешествуют гораздо реже. Некоторые макроэкономические колебания наблюдаются для некоторых штатов, но в целом количество поездок на человека стабильно в долгосрочной перспективе.

Я подобрал модель случайного леса и модель повышения градиентного дерева для подтвержденной скорости с использованием данных о мобильности и текущих активных инфекций. Для обеспечения согласованности контента я представляю здесь интерпретацию этих моделей (с точки зрения важности функций). Подробности подгонки модели читайте в следующем блоге.

На следующем рисунке видно, что активные в настоящее время (подтвержденные) случаи являются основным предиктором этих двух методов, и мобильность имеет значение. Соотношение количества людей, которые остаются дома и остаются дома, являются основными предикторами, а также важны средние и дальние поездки (50 миль и более). Следовательно, я обоснованно предполагаю, что такие результаты указывают на то, что, когда местная пандемия COVID серьезна, но люди по-прежнему путешествуют между штатами (поездки на большие расстояния, скорее всего, подразумевают поездки между штатами), люди с большей вероятностью будут инфицированы COVID.

В следующем блоге я объясню детали того, как я настроил улучшенную модель SIRD, используя наборы данных в этом блоге.