Наука о данных дала более широкое понимание окружающего мира, представляя идеи, выходящие за рамки того, что мы изначально искали. Так было, когда я несколько месяцев назад заканчивал проект с Covid-19.

Проект начался с целью сбора данных о случаях и смертях от Covid-19 в США, штатах и ​​округах, а также составления прогнозов на следующие 30 дней. Я начал процесс обычным способом со сбора данных, их очистки и визуализации данных, чтобы увидеть, выделяется ли что-нибудь. Данные начали обретать форму там, где я взял кучу неорганизованных кусочков головоломки и начал формировать картину. Точно так же, как головоломка раскрывает удовлетворительную картинку, правильно очищенные данные могут выявить понимание и закономерности.

Первичный набор данных был взят из New York Times, который содержал соответствующие столбцы — даты, случаи и случаи смерти по штатам и округам. Диапазон набора данных был с 21 января 2020 г. по 15 мая 2020 г. Данные сделали вывод об очевидном; что случаи и смерти растут по всей стране. Поскольку диапазон дат пришелся на первые дни пандемии, это незначительная находка. Однако занавес отодвинулся, как только анализ перешел на уровень штата и округа.

Государственные дела и случаи смерти

Анализ Соединенных Штатов в целом рассказывает хорошо понимаемую историю того периода времени; заболеваемость и смертность имели тенденцию к росту. Следующим шагом было перейти к отдельным штатам с определенными вопросами для рассмотрения: Есть ли выбросы в случаях и/или смертях? Коррелируют ли случаи и смерти в рейтинге штата? Вопросы побуждают к дальнейшим исследованиям и помогают сделать менее очевидные выводы.

Данные показывают интересные нарративы, когда исследование разбито на части, например, где каждый штат занимает первое место по количеству случаев и смертей. Рассмотрим следующий слайд:

Рейтинги показывают, что Мичиган занимает 7-е место по количеству случаев, но занимает 3-е место по смертности! Просто взглянув на рейтинги Мичигана, вы можете увидеть, что в штате Великие озера что-то ужасно не так, что, возможно, указывает на проблему в лечении случаев Covid. Именно на этом этапе у вас может возникнуть соблазн двигаться дальше. Вы идентифицировали и заметили странную взаимосвязь в данных, и вы можете легко продолжить движение по набору данных. НО я призываю вас продолжать повествование. Давайте узнаем, что это значит! Хорошей практикой является постановка прямого вопроса для исследования, что добавит дополнительную ценность анализу. В этом случае возникает вопрос, почему уровень смертности в Мичигане выше, чем в других штатах с большим количеством случаев? В кроличью нору мы идем!

Данные — это начало

Согласно нескольким источникам (см. Ниже), есть несколько причин, по которым в Мичигане был высокий уровень смертности в начале пандемии. После дальнейших раскопок соображения включают:

  1. В Мичигане произошел один из самых резких скачков заболеваемости коронавирусом в стране: в конце марта и начале апреля число случаев удваивалось каждые три дня. (Всплеск, влияющий на уровень смертности). Дальнейшие исследования будут учитывать процессы клинического ведения и понимание вируса как других переменных, которые могут способствовать высокой смертности, поскольку это связано с всплесками случаев заболевания.
  2. Социально-демографическая среда вокруг Детройта способствовала повышению уровня смертности в Мичигане. Когда мы можем оглянуться назад в этот период, неудивительно узнать, что более бедные сообщества, преимущественно афроамериканские сообщества, сильно и быстро пострадали от Covid. Дальнейшие исследования показывают, что близость к больнице и ранее существовавшие условия в этих сообществах также были факторами, способствующими этому. "На долю афроамериканцев приходится 40% смертей от коронавируса в Мичигане, хотя афроамериканцы составляют лишь 14% населения штата".
  3. Дома престарелых в Мичигане сильно пострадали от коронавируса. Опять же, оглядываясь назад на этот период времени, в среде домов престарелых были выявлены определенные проблемы и уязвимости. Очевидно, что фактором был возраст жильцов, а другие переменные включают в себя несколько жильцов в комнате, ранее существовавшие условия и т. д.
  4. В Мичигане могли быть более агрессивные методы подсчета смертей от коронавируса. На протяжении всей пандемии публиковались государственные отчеты, показывающие различные методы публикации статистики по коронавирусу. Например, в одном штате смерть может быть указана как «смерть от Covid», потому что у пациента наблюдался симптом, в то время как в другом штате это не будет считаться «смертью от Covid».

В чем смысл?

Я думаю, что здесь можно извлечь несколько уроков:

  1. Для получения полезной информации с относительно небольшими усилиями не было необходимости в моделях машинного обучения. Выявление важной информации в данных редко бывает таким сложным, как мы это делаем.
  2. На начальном этапе исследовательского анализа данных (EDA) много энергии. Именно на этом этапе мы можем выявить потенциальные закономерности и «кроличьи норы» для более подробного изучения.
  3. Задавать вопросы. Дорожная карта здесь проста. Почему это показывает это? В чем причина этого? Вопросы являются окончательным руководством для лучшего понимания данных и, в данном случае, того, почему уровень смертности в Мичигане был таким высоким во время первой части пандемии. Кроме того, как только будут даны ответы на важные вопросы, можно приступать к действиям. Например, строительство надлежащих медицинских учреждений ближе к бедным общинам.

Спасибо за чтение, и, пожалуйста, оставьте комментарий, если есть какие-либо вопросы!

использованная литература

  1. Д'Амброзио, А. (2020). Сообщения о вероятной смерти от COVID-19 зависят от штата. https://www.medpagetoday.com/infectiousdisease/covid19/86127.
  2. Мак, Дж. (2020). Почему уровень смертности от коронавируса в Мичигане такой высокий? https://www.mlive.com/public-interest/2020/06/why-is-michigans-coronavirus-death-rate-so-high .html.