С декабря 2019 года, когда ВОЗ объявила о вспышке Covid-19, скорость распространения была спонтанной. Это началось с вертикальных завозных случаев, а теперь стало горизонтальным распространением среди населения. Результаты этого проекта могут помочь странам лучше подготовиться в зависимости от скорости распространения инфекции.

Я взял на себя эту задачу, чтобы помочь создать более чистый набор данных для целей машинного обучения. Я использую наборы данных в реальном времени от ВОЗ и дополняю их другими соответствующими наборами данных. Сейчас я углублюсь в технические детали.

Размер и качество наборов данных влияют на точность прогноза. Тем не менее, плохой набор данных = плохой прогноз. Как я уже говорил ранее, благодаря исследованиям существует ряд гипотетических переменных, которые могут помочь модулю прогнозирования выполнять свою работу по прогнозированию скорости распространения. Модуль ИИ найдет закономерности во входных переменных для прогнозирования.

Наборы данных, которые я использую для дополнения, кроме наборов данных ВОЗ,

  1. Температура и влажность в стране в зависимости от страны
  2. Среднее отслеживание контактов по стране
  3. Количество правительственных вмешательств в каждой стране — например, запрет на общественные собрания, школы, ограничения на поездки, карантин и т. д.
  4. Городское население по стране
  5. Размер домохозяйства по стране
  6. Способ распространения по стране — импортный или местный.
  7. Вид общественного транспорта по стране — например, автобус, самолет, поезд.
  8. Пожилое население старше 65 лет по стране
  9. Экономическая классификация по странам - например, от низкого дохода до высокого дохода
  10. Количество дней с момента начала пандемии

Это может занять несколько дней и побудит всех выбрать наборы данных, которыми я поделюсь, и использовать их. Я постараюсь максимально очистить данные для удобного обучения на ваших модулях.

Ниже приведены ссылки на наборы данных и модель Scikit ML.

Kaggle Блокнот