Первые прогнозы готовы…
Я обучил первую модель, регрессионную модель Ridge, используя набор данных, который я построил с данными Китая. Этот набор данных собирает данные до 03.11.2020.
У меня сейчас есть первые три модели:
- Модель confirmedCases: эта модель способна прогнозировать количество подтвержденных случаев до следующей недели.
- Модель deathsCases: эта модель способна прогнозировать количество случаев смерти до следующей недели.
- Модель recoveredCases: эта модель способна прогнозировать количество восстановленных случаев до следующей недели.
Деталь модели
Я использовал подход поиска по сетке, чтобы найти правильные параметры для поиска модели Ridge между:
alpha:[1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06] max_iter: [13000], solver: [svd, cholesky, lsqr]
Результаты
На следующих изображениях показаны прогнозы количества подтвержденных случаев смерти и выздоровевших в Китае на каждый день. Красные точки — реальные данные, синяя линия — предсказание модели.
Похоже, что в ближайшие дни сценарий будет следующим:
- Подтвержденные случаи: роста не будет до 17.03.2020
- Случаи смерти: роста не будет до 17.03.2020
- Выздоровевшие случаи: новые выздоровевшие случаи будут подтверждены
Теперь сценарий для Италии…
Сделал 2 анализа:
- использовать обученную модель Китая в наборе данных Италии
- новый поезд в наборе данных Италии
Китайская обученная модель на наборе данных Италии
Здесь мы видим, что модель не может предсказать число для каждой категории (подтвержденные, умершие и выздоровевшие); в любом случае мы можем изучить тенденцию:
- Подтверждено: у нас восходящий тренд до 17.03.2020
- Смертность: то же, тенденция к росту до 17.03.2020
- Восстановлено: вроде стабильно
Дальнейшие шаги
На мой взгляд, важно изучить правильную модель для обучения: я обучаю модель SVR (регрессия опорных векторов), используя подход поиска по сетке со следующими параметрами:
{kernel:(linear, rbf, poly), C:[1, 10, 100], gamma:auto]}
Я выделил машину GCE (n1-standard-1 — 1 виртуальный ЦП, 3,75 ГБ памяти) для проведения обучения. Это использование ЦП машины за последние часы:
Кроме того, я пропустил шаг выбора функций: возможно, некоторые функции не так полезны. Также пока отсутствуют функции теории графов.
Наконец, я хочу иметь веб-портал, где эти прогнозируемые значения будут сообщаться в режиме реального времени.
Быть в курсе!