Во-первых, я взял закрытие с данными тестирования короны из Kaggle https://www.kaggle.com/sudalairajkumar/covid19-in-india, а данные о состоянии взяты из https://www.mohfw.gov .in / [ Министерство здравоохранения и благополучия семьи ].

Мой исследовательский вопрос заключался в следующем: Как можно построить модель, которая могла бы предсказать, в каких штатах Индии в ближайшие годы будет быстрее восстанавливаться корона? Если я возьму вопрос исследования с другой точки зрения, то: есть ли способ узнать все «зараженные в будущем» / «восстановленные» состояния?

Эти данные не содержат каких-либо данных или предвзятости относительно природы вирусов и их исследований. Я применил модель на основе имеющихся данных.

Набор данных содержит данные о daily_infection_data, Daily_hospitalization Data, а также данные индивидуального тестирования и данные Individual_Age-статистики за последние 7 месяцев.

  1. Данные статистики возраста:

2.Daily_infection_covid Данные:

3.Данные о госпитализации:

4. данные ежедневного тестирования:

5.individual_Data:

Исследовательский анализ данных:

Я хотел увидеть, как уровни подтверждения короны влияют на штаты с результатами их тестирования. Это текущая статистика данных, собранных на момент подтверждения различных состояний.

До сих пор у нас нет выкройки.

Ps: Приносим извинения за неудобства в моей оси X, это «состояния», которые видны, если увеличены в моем локальном, но не в другом месте.

Но если вы видите ежедневное подтверждение Datewise, вы увидите закономерность.

Это данные, которые я сгруппировал по дате

В каждом месяце вы увидите, что первые пару дней число подтверждения короны низкое. Если я построю эту статистику выше, это будет выглядеть так.

Теперь, глядя на этот график, мы полностью понимаем, что в первые 2/3 дня каждого месяца тестирования может происходить меньше. Фактически, Индия увеличивала количество тестов каждый месяц, и количество подтверждений также увеличивалось в первые пару дней каждого месяца.

Реформированный вопрос исследования

Но сделает ли увеличение числа в тестировании эффективной моделью, предсказывающей незатронутые / затронутые области (состояния) в будущем?

Основываясь на своем исследовательском вопросе, я просто посмотрел на факторы, которые тесно коррелировали друг с другом. Я хотел классифицировать состояния на основе простой модели классификации

Характеристики, которые я взял для классификации, а именно:

  1. Количество подтвержденных случаев
  2. Тип: Лаборатория какого типа проводит тестирование.

3.Количество смертей

Ярлык: Штаты

Применение DecisionTreeClassifier дало приличную точность в прогнозировании этих состояний.

Теперь я увидел здесь закономерность. с DecisionTreeeClassifier с другим тестированием. Данные на самом деле не повлияют на точность. Итак, я последовал этому методу.

  1. Без изменений в тестовых данных (оставить размер теста 0,3)
  2. Измененные данные в размере теста (оставить размер теста 0,15)
  3. Дерево принятых решений с большей глубиной
  4. Проведена перекрестная проверка K-кратности вместе с классификатором дерева решений.

Ниже приведены данные о точности, которые я создал для каждой модели.

Одна вещь, которую мы знаем, чем больше мы обучаем модель, модель должна обучаться и давать более высокую точность, но здесь, во втором столбце, значение уменьшается. Только он значительно увеличился за счет перекрестной проверки в k раз.

Ссылка на код:

Заключение

Перекрестная проверка методом K-сгибов Я считаю, что это хороший метод, позволяющий гарантировать, что все данные обучения не будут исчерпаны. Что касается Corona, все пациенты с симптомами проходят тестирование, но на тот момент неизвестно, кто выздоровел однажды, действительно ли подвержен влиянию во второй раз.

На мой взгляд, возьмите образец собранных данных и обучите модель отдельно от них, а другая часть будет использоваться для обучения перекрестной проверке. Это еще одна концепция метода исключения одного для перекрестной проверки.

Тогда он сможет предсказать исходные тела хозяев, которые в настоящее время заражены. Ниже приведена диаграмма перекрестной проверки без исключения.

вот ссылка на кросс-валидацию Kfold:

1. https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6

2. https://towardsdatascience.com/complete-guide-to-pythons-cross-validation-with-examples-a9676b5cac12