Во-первых, я взял закрытие с данными тестирования короны из Kaggle https://www.kaggle.com/sudalairajkumar/covid19-in-india, а данные о состоянии взяты из https://www.mohfw.gov .in / [ Министерство здравоохранения и благополучия семьи ].
Мой исследовательский вопрос заключался в следующем: Как можно построить модель, которая могла бы предсказать, в каких штатах Индии в ближайшие годы будет быстрее восстанавливаться корона? Если я возьму вопрос исследования с другой точки зрения, то: есть ли способ узнать все «зараженные в будущем» / «восстановленные» состояния?
Эти данные не содержат каких-либо данных или предвзятости относительно природы вирусов и их исследований. Я применил модель на основе имеющихся данных.
Набор данных содержит данные о daily_infection_data, Daily_hospitalization Data, а также данные индивидуального тестирования и данные Individual_Age-статистики за последние 7 месяцев.
- Данные статистики возраста:
2.Daily_infection_covid Данные:
3.Данные о госпитализации:
4. данные ежедневного тестирования:
5.individual_Data:
Исследовательский анализ данных:
Я хотел увидеть, как уровни подтверждения короны влияют на штаты с результатами их тестирования. Это текущая статистика данных, собранных на момент подтверждения различных состояний.
До сих пор у нас нет выкройки.
Ps: Приносим извинения за неудобства в моей оси X, это «состояния», которые видны, если увеличены в моем локальном, но не в другом месте.
Но если вы видите ежедневное подтверждение Datewise, вы увидите закономерность.
Это данные, которые я сгруппировал по дате
В каждом месяце вы увидите, что первые пару дней число подтверждения короны низкое. Если я построю эту статистику выше, это будет выглядеть так.
Теперь, глядя на этот график, мы полностью понимаем, что в первые 2/3 дня каждого месяца тестирования может происходить меньше. Фактически, Индия увеличивала количество тестов каждый месяц, и количество подтверждений также увеличивалось в первые пару дней каждого месяца.
Реформированный вопрос исследования
Но сделает ли увеличение числа в тестировании эффективной моделью, предсказывающей незатронутые / затронутые области (состояния) в будущем?
Основываясь на своем исследовательском вопросе, я просто посмотрел на факторы, которые тесно коррелировали друг с другом. Я хотел классифицировать состояния на основе простой модели классификации
Характеристики, которые я взял для классификации, а именно:
- Количество подтвержденных случаев
- Тип: Лаборатория какого типа проводит тестирование.
3.Количество смертей
Ярлык: Штаты
Применение DecisionTreeClassifier дало приличную точность в прогнозировании этих состояний.
Теперь я увидел здесь закономерность. с DecisionTreeeClassifier с другим тестированием. Данные на самом деле не повлияют на точность. Итак, я последовал этому методу.
- Без изменений в тестовых данных (оставить размер теста 0,3)
- Измененные данные в размере теста (оставить размер теста 0,15)
- Дерево принятых решений с большей глубиной
- Проведена перекрестная проверка K-кратности вместе с классификатором дерева решений.
Ниже приведены данные о точности, которые я создал для каждой модели.
Одна вещь, которую мы знаем, чем больше мы обучаем модель, модель должна обучаться и давать более высокую точность, но здесь, во втором столбце, значение уменьшается. Только он значительно увеличился за счет перекрестной проверки в k раз.
Ссылка на код:
Заключение
Перекрестная проверка методом K-сгибов Я считаю, что это хороший метод, позволяющий гарантировать, что все данные обучения не будут исчерпаны. Что касается Corona, все пациенты с симптомами проходят тестирование, но на тот момент неизвестно, кто выздоровел однажды, действительно ли подвержен влиянию во второй раз.
На мой взгляд, возьмите образец собранных данных и обучите модель отдельно от них, а другая часть будет использоваться для обучения перекрестной проверке. Это еще одна концепция метода исключения одного для перекрестной проверки.
Тогда он сможет предсказать исходные тела хозяев, которые в настоящее время заражены. Ниже приведена диаграмма перекрестной проверки без исключения.
вот ссылка на кросс-валидацию Kfold:
1. https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6