Первые прогнозы готовы…

Я обучил первую модель, регрессионную модель Ridge, используя набор данных, который я построил с данными Китая. Этот набор данных собирает данные до 03.11.2020.

У меня сейчас есть первые три модели:

  1. Модель confirmedCases: эта модель способна прогнозировать количество подтвержденных случаев до следующей недели.
  2. Модель deathsCases: эта модель способна прогнозировать количество случаев смерти до следующей недели.
  3. Модель recoveredCases: эта модель способна прогнозировать количество восстановленных случаев до следующей недели.

Деталь модели

Я использовал подход поиска по сетке, чтобы найти правильные параметры для поиска модели Ridge между:

alpha:[1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06]
max_iter: [13000],
solver: [svd, cholesky, lsqr]

Результаты

На следующих изображениях показаны прогнозы количества подтвержденных случаев смерти и выздоровевших в Китае на каждый день. Красные точки — реальные данные, синяя линия — предсказание модели.

Похоже, что в ближайшие дни сценарий будет следующим:

  1. Подтвержденные случаи: роста не будет до 17.03.2020
  2. Случаи смерти: роста не будет до 17.03.2020
  3. Выздоровевшие случаи: новые выздоровевшие случаи будут подтверждены

Теперь сценарий для Италии…

Сделал 2 анализа:

  1. использовать обученную модель Китая в наборе данных Италии
  2. новый поезд в наборе данных Италии

Китайская обученная модель на наборе данных Италии

Здесь мы видим, что модель не может предсказать число для каждой категории (подтвержденные, умершие и выздоровевшие); в любом случае мы можем изучить тенденцию:

  1. Подтверждено: у нас восходящий тренд до 17.03.2020
  2. Смертность: то же, тенденция к росту до 17.03.2020
  3. Восстановлено: вроде стабильно

Дальнейшие шаги

На мой взгляд, важно изучить правильную модель для обучения: я обучаю модель SVR (регрессия опорных векторов), используя подход поиска по сетке со следующими параметрами:

{kernel:(linear, rbf, poly), C:[1, 10, 100], gamma:auto]}

Я выделил машину GCE (n1-standard-1 — 1 виртуальный ЦП, 3,75 ГБ памяти) для проведения обучения. Это использование ЦП машины за последние часы:

Кроме того, я пропустил шаг выбора функций: возможно, некоторые функции не так полезны. Также пока отсутствуют функции теории графов.

Наконец, я хочу иметь веб-портал, где эти прогнозируемые значения будут сообщаться в режиме реального времени.

Быть в курсе!