Прогнозирование вспышки COVID-19 с использованием алгоритма машинного обучения

КАТАСТРОФИЧЕСКИЙ ВСПЫШКА COVID-19 УГРОЗА ДЛЯ ОБЩЕСТВА

Прогнозирование вспышки COVID-19 с использованием алгоритма машинного обучения

Раннее предсказание передачи позволяет получить требуемые ответы

Примечание редакции: Towards Data Science - это издание Medium, в основном основанное на изучении науки о данных и машинного обучения. Мы не являемся специалистами в области здравоохранения или эпидемиологами, и мнения, изложенные в этой статье, не следует интерпретировать как профессиональные рекомендации по охране здоровья. Однако в этой статье основное внимание будет уделено тому, как можно использовать машинное обучение для прогнозирования распространения пандемии.

Вступление

Наше общество находится в эпоху невероятных попыток борьбы с распространением этого опасного для жизни состояния с точки зрения инфраструктуры, финансов, бизнеса, производства и ряда других ресурсов. Исследователи искусственного интеллекта (ИИ) укрепляют свои навыки в разработке математических парадигм для исследования этой пандемии с использованием общенациональных распределенных данных. В этой статье мы намерены применить модели машинного обучения одновременно с прогнозом ожидаемой достижимости COVID-19 по странам, используя данные в реальном времени с панели управления Johns Hopkins.

Этапы передачи

Распространение коронавируса подразделяется на четыре стадии. Первый этап начинается с регистрации случаев для людей, которые путешествовали в затронутые страны или города или из них, тогда как на втором этапе случаи регистрируются на региональном уровне среди членов семьи, друзей, и группы, которые контактировали с людьми, прибывшими из пострадавших стран. Таким образом, пострадавших можно идентифицировать. Затем, третья стадия серьезно обуславливает обстоятельства, поскольку инфицированный человек становится необнаружимым и распространяется на людей, которые не имеют никаких документов о поездках и не связаны с этим человеком. Это условие требует немедленной изоляции по всей стране, чтобы уменьшить социальные контакты между людьми для измерения распространения вируса. Наконец, начинается четвертая стадия, когда передача становится эндемичной и неконтролируемой. Китай - первая страна, которая почувствовала себя на четвертой стадии передачи COVID-19, в то время как большинство развитых стран сейчас находятся на этой стадии передачи и несут еще больше эпидемий и потерь по сравнению с Китаем.

Алгоритмы машинного обучения играют важную роль в расследовании и прогнозировании пандемии. Кроме того, методы машинного обучения помогают выявить закономерности эпидемии. В результате могут быть подготовлены немедленные меры для предотвращения распространения вируса (Kalipe, Gautham & Behera, 2018¹; Singh, Singh & Bhatia, 2018²). Более того, модели машинного обучения используются для распознавания коллективного поведения вместе с прогнозом ожидаемого распространения COVID-19 в обществе путем использования данных в реальном времени с панели управления Джонса Хопкинса.

Набор данных

Набор данных получен из официального репозитория Университета Джона Хопкинса³. Эти данные состоят из ежедневных отчетов о случаях и сводных таблиц ежедневных временных рядов. В рамках исследования мы выбрали сводные таблицы временных рядов в формате CSV, содержащие три таблицы для подтвержденных, смертельных и выздоровевших случаев COVID-19 с шестью свойствами. Например, провинция / штат, страна / регион, последнее обновление, подтвержденные случаи, случаи смерти и выздоровления. Данные CSV доступны в репозиториях Github⁴.

Прогнозирование и анализ

Распространение коронавируса поставило общество на грань социальных потерь. Кроме того, очень важно изучить предстоящий рост передачи и спрогнозировать будущие случаи передачи. Параллельно выбираются современные математические модели на основе машинного обучения для вычислительного процесса для прогнозирования распространения вируса, например:

Поддержка векторной регрессии⁵ (SVR)
Полиномиальная регрессия⁶ (PR)
Модели регрессии глубокого обучения

Это также включает:

Искусственная нейронная сеть⁷ (ИНС)
Рекуррентные нейронные сети⁸ (RNN) с использованием ячеек Long Short-Term Memory⁹ (LSTM).

Стратегии машинного обучения и глубокого обучения реализуются с использованием библиотеки python для экстенсивного прогнозирования общего числа подтвержденных, выздоровевших и смертельных случаев. Этот прогноз позволит принять конкретные решения, основанные на росте передачи, такие как расширение фазы блокировки, выполнение плана санитарии и обеспечение ежедневной поддержки и поставок.

Регрессионный анализ

Регрессионный анализ - это раздел алгоритмов машинного обучения. Это ведущий алгоритм машинного обучения. Подумайте о прямой линии уравнения, объединяющей любые две переменные X и Y, которые можно алгебраически объявить как:

Где b объявлен точкой пересечения на оси Y, а a называется наклоном линии. Здесь a и b также называются параметрами регрессионного анализа. Эти параметры должны изучаться с помощью соответствующих методов обучения.

Регрессионный анализ содержит набор методов машинного обучения, которые позволяют нам прогнозировать переменную непрерывного результата (Y) на основе значения одной или нескольких переменных-предикторов (X). Он претендует на постоянную связь между результатом и переменными-предикторами.

Коэффициенты корреляции

Коэффициент корреляции интерпретируется как сила линейной связи между двумя переменными. Карл Пирсон подчеркивает, что коэффициент корреляции - это вес или степень линейной корреляции между двумя переменными. Он также создал формулу, известную как коэффициент корреляции. Коэффициент корреляции между двумя случайными величинами X и Y, обычно обозначаемый числовой мерой линейной зависимости между этими переменными, определяется как:

Где i = 1, 2, 3, 4,… N - это набор входных и выходных переменных. Некоторые прогнозы приведены ниже:

Если значение коэффициента корреляции равно нулю, это указывает на отсутствие корреляции между входными переменными X и выходной переменной Y.
Если значение коэффициента корреляции равно положительному, это указывает на наличие сильной связи между входной переменной и выходной переменной. Другими словами, если входная переменная увеличивается, то и выходная переменная также увеличивается.
Если значение коэффициента корреляции равно отрицательному, это означает, что входная переменная увеличивается, выходная переменная также уменьшается и так далее.

Те переменные, которые имеют небольшую линейную корреляцию или не имеют линейной корреляции, могут иметь сильную нелинейную связь. С другой стороны, оценка линейной корреляции до подбора модели - ценный способ распознать переменные с простой взаимосвязью. В предлагаемом исследовании мы измерили коэффициент корреляции между датой и количеством подтвержденных случаев распространения COVID-2019 по всей стране.

Код на Python

Заключение

Наша среда находится под контролем вируса COVID-19. В этой статье предполагается использовать модели машинного обучения для анализа пандемии с использованием набора данных от Johns Hopkins. В заключение, метод полиномиальной регрессии (PR) сгенерировал минимальную среднеквадратическую ошибку (RMSE) по сравнению с другими методами прогнозирования передачи COVID-19. Однако, если распространение имитирует прогнозируемую тенденцию модели PR, то это приведет к гибели большого числа людей, поскольку представляет собой невероятный рост передачи инфекции во всем мире. По мнению Китая, рост числа случаев COVID-19 может быть снижен за счет уменьшения числа чувствительных людей у инфицированных людей. Эту новую норму можно получить, сделавшись асоциальным и поддерживая регулирование изоляции с помощью контроля.

References
#1 Predicting Malarial Outbreak using Machine Learning and Deep Learning Approach: A Review and Analysis
#2 Sentiment analysis using machine learning techniques to predict outbreaks and epidemics
#3 Johns Hopkins University
#4 Johns Hopkins University: COVID-19 Data Repository
#5 Support Vector Regression
#6 Polynomial Regression
#7 Artificial Neural Network
#8 Recurrent Neural Networks
#9 Long Short-Term Memory
Disclaimer
This is for education and information purposes only, additional research in the machine learning algorithm needed to give the exact amount of prediction data from the real-time dataset. The source code of the experiment can be access here on GitHub.

Прогнозирование вспышки COVID-19 с использованием алгоритма машинного обучения

КАТАСТРОФИЧЕСКИЙ ВСПЫШКА COVID-19 УГРОЗА ДЛЯ ОБЩЕСТВА