TL; DR: история о том, как данные из реального мира плохо вписываются в чрезмерно упрощенную модель. Также известен как: Как постулирование идеально сферических коров приводит к отрицательным результатам.

Эпистемический статус: я достаточно изучил глубокое обучение, чтобы понять, что это модель, требующая большого количества данных, и у нас недостаточно данных, чтобы COVID19 мог рассматривать ее как временные ряды. С таким же успехом можно было бы вписаться в старую добрую логистическую кривую. И, учитывая мое полное отсутствие каких-либо знаний в области эпидемиологии, я недостаточно квалифицирован и чрезмерно самоуверен, когда пишу это. И у меня есть доказательства этому: Ошибка: я ошибочно принимаю R0 с фактором роста, и мне не нужно фиксировать цифры. И если этого недостаточно, вот шаблонная версия от редактора:

Примечание редакции: Towards Data Science - это издание Medium, в основном основанное на изучении науки о данных и машинного обучения. Мы не являемся специалистами в области здравоохранения или эпидемиологами, и мнения, изложенные в этой статье, не следует интерпретировать как профессиональные советы. Чтобы узнать больше о пандемии коронавируса, нажмите здесь.

План

План был прост:

  1. Посмотрите статью 3blue1brown Экспоненциальный рост и эпидемии выше.
  2. Понять логистическую модель и понять фактор роста (из видео).
  3. Получите данные о COVID19.
  4. Совместите его с логистической моделью (проверьте приложение, чтобы увидеть математику) и отследите R.
  5. Подтвердите, что это работает с данными в Китае (где они приблизились к плоскому потолку логистической кривой)
  6. Затем экстраполируйте на мировые данные.
  7. Выясните, где находится мир на логистической кривой прямо сейчас.
  8. ???
  9. Выгода!

Теория

Части с 1 по 3 просты. Часть 4 работает теоретически:

Подтвержденный случай (черный) образует красивую S-образную (или сигмовидную, если хотите,) логистическую кривую. 1-я производная (новые ежедневные случаи отмечены красным цветом) образует красивую кривую колокола (не нормальную / гауссову, насколько мне известно). Фактор роста (синий, используйте правую ось) плавно убывает. Количество новых случаев начинает падать, когда фактор роста достигает отметки фактора роста = 1 (горизонтальная синяя пунктирная линия). Мы могли бы разделить логистическую кривую на 4 части, разграниченные 3 вертикальными зелеными линиями, которые отмечают максимум, перегиб и минимум соответственно.

Да, здесь и там есть некоторая нестабильность, потому что я использую дискретный метод (потому что реальные данные в любом случае будут дискретными). Но в общем, теоретически это работает. (Кривые нормализованы по вертикали, потому что нас не интересуют фактические значения, а скорее форма кривой.)

Китай

Даже при подгонке логистической модели с использованием китайских данных и до 1-й производной все по-прежнему довольно хорошо:

Это выглядит очень многообещающе! (За исключением того факта, что после 50-го дня кажется, что количество новых ежедневных случаев медленно увеличивается! Это начало 2-й волны, которой опасаются?).

(Есть и еще одна проблема. Данные слишком хорошо совпадают. Есть несколько серьезных вмешательств, но все выглядит как шум (за исключением внезапного всплеска примерно на 22-й день из-за изменений в диагностических определениях). Китай провел много вмешательств, но почему они исчезают в шуме и не материализовались во внезапное падение или что-то в этом роде? Было ли вмешательство бесполезно? Это странный вывод. В любом случае, это пища для размышлений, и не только для этих данных, и у меня есть в блоге об этом, прежде чем рисовать из самых разных областей. Думаю, вот еще один пример: ПРИВОДИТ ЛИ РЕАЛЬНОСТЬ ПРЯМЫЕ ЛИНИИ НА ГРАФИКАХ ИЛИ ПРЯМЫЕ ЛИНИИ НА ГРАФИКАХ ПРИВОДИТ РЕАЛЬНОСТЬ?)

К сожалению, когда получается полноценная модель, это очень обидно.

Нет четкого плавного спуска фактора роста. Когда фактор роста = 1? Похоже, все время! Искать ориентиры во 2-й производной еще более безнадежно. Может нам нужно немного сглаживания? Итак, давайте возьмем эти значения не из исходных данных, а из нашей логистической модели.

Если прищуриться, можно увидеть, что логистическая модель в какой-то мере подходит. Например, в конце 1-го квартала (1-я вертикальная зеленая пунктирная линия) очень хорошо совпадает с 25-м процентилем последнего подтвержденного случая (сплошной черный). 2-я четверть (2-я вертикальная зеленая пунктирная линия) также очень хорошо совпадает с 50-м процентилем окончательного подтвержденного случая, а также совпадает с периодом, когда логистический фактор роста упал ниже 1. Из-за аномалии на 22-й день (новое диагностическое определение), 3-й квартал смещен, заниженный на уровне около 12,5 процентиля.

Мир

За пенни, за фунт. Ошибка на шаге 5, с таким же успехом можно и закончить. Поскольку простая логистическая модель вызывает подозрения, давайте посмотрим на кривые для мира.

Как и ожидалось, данные зашумлены. В любом случае дела идут неважно. Первая производная все еще растет, особенно с 30-го дня. Это означает, что мы все еще находимся в первой половине пандемии. По приблизительным подсчетам, мы могли ожидать, как минимум, удвоения числа подтвержденных случаев, а также смертей. Хотя дальнейшее вмешательство может все изменить. И я действительно рад, что люди во всем мире усердно трудятся над этим. Давайте сосредоточимся на этой красной кривой.

Я думаю, мы можем подозревать, что фактор роста замедляется и сглаживается. Если это правда, то, по крайней мере, мы примерно четверть пути, если не просто проехали. Обратите внимание, что это не квартал, когда речь идет о днях или количестве подтвержденных случаев / смертей. По форме кривых это всего лишь четверть. (Это странный способ сгладить кривую и визуализировать ее, но я думаю, что это довольно изящно, поэтому он здесь.)

Кажется, что вторая производная тоже рассказывает ту же историю. Он сплющивается. (Журнал выглядит почти идентичным.)

Наконец, фактор роста. В основном идет вниз. Сейчас он определенно ниже, чем был на 35–45-й день. Он еще не коснулся отметки фактора роста = 1, что говорит о том, что мы еще не прошли 2-й квартал.

Окончательный вердикт

Обычно я помещаю это в TL; DR. Но поскольку эти данные чрезвычайно зашумлены, а мои методы чрезвычайно упрощены, я думаю, что было бы опрометчиво делать какой-либо значимый вывод, не крича: «ЭТО ПРОСТО ДЛЯ УДОВОЛЬСТВИЯ!». Так что я просто помещу сюда, только для клуба «дочитал до конца». Заявление об ограничении ответственности: «НЕ ПРИНИМАЙТЕ КАКИХ-ЛИБО СОЦИАЛЬНЫХ / МЕДИЦИНСКИХ / ФИНАНСОВЫХ / ЛЮБЫХ РЕШЕНИЙ, ОСНОВАННЫХ НА ЭТОМ». Есть еще много квалифицированных людей, послушайте их.

Если мы действительно приближаемся к первому кварталу или как раз перед ним, то мы можем ожидать, что очень скоро все станет действительно плохо. Похоже, будет взрывной рост заболеваемости, каждый день будет новый рекорд. Это плохо, потому что для неосведомленных вещи просто кажутся неконтролируемыми, и конца этому не видно. Просто экспоненциальный рост ждет, чтобы заразить 100% на Земле. Важно, чтобы мы пережили этот этап как общество.

Мне нравится, как люди распространяют идею «сгладить кривую», что вдвойне работает как установление ожиданий. COVID19 - это катастрофа по любым меркам. Будет хуже, если мы, как общество, войдем в него с завязанными глазами. И чувство важно, потому что оно определяет, произойдут ли беспорядки и распад социальных структур, правопорядка. Но если мы знаем, что нас ждет, даже если это катастрофа, мы могли бы хотя бы приготовиться.

Через некоторое время, может быть, через несколько недель, может быть, через несколько месяцев мы увидим 2 квартал, когда начнет падать количество новых случаев. Трудно быть уверенным, так ли это на самом деле или это всего лишь временный провал в данных. Только через несколько недель шум утихнет, и мы сможем подтвердить, что дела налаживаются, рекорды больше не бьют. Список погибших запаздывает на несколько недель, но вскоре он появится.

Эмоционально будет казаться, что все почти закончилось, даже если мы находимся только на полпути, потому что все налаживается, в конце туннеля горит свет. Важно, чтобы дела шли только к лучшему, если мы будем сохранять бдительность. Если мы расслабимся в это время, все снова станет хуже.

Даже с учетом всего сказанного. Это может быть только первая волна. Возможно, придет 2-я волна, как это было в случае с испанским гриппом. Вдобавок я слышал, как эксперты целенаправленно разрабатывают множественные волны, потому что альтернатива - оставаться взаперти навсегда и никогда не создавать коллективный иммунитет с помощью плана возврата к нормальному состоянию.

Это будет долгая поездка, пристегнитесь.

Приложение

Проверьте мой код: https://colab.research.google.com/drive/1WfV0PqDwALFN5n9BEWNUvWpTdjxbq6Kf

Для Китая я предполагаю, что L = последняя цифра + 1, поэтому у нас не будет проблем с журналом (0). Я не знаю, как правильно принять L для мира.

Ссылки и благодарности

Данные взяты с: https://github.com/CSSEGISandData/COVID-19

Все изображения принадлежат мне, если иное не указано в подписи.