Прогнозирование уровня безработицы в ситуации с COVID

Пандемия COVID-19 оставила без работы миллионы людей по всему миру.

Это исследование посвящено прогнозированию уровня безработицы в следующем году с помощью машинного обучения. Он использует набор данных с открытым исходным кодом, опубликованный на портале открытых данных Европейского союза.

Исследовательский анализ данных

Необработанный набор данных содержал более 2000 записей, которые состояли из данных из разных стран. Однако в данных были столбцы, содержащие несколько объединенных данных, поэтому сначала мне нужно было извлечь отдельные функции из составных функций. Поэтому потребовалось немного форматирования данных.

Я взял первый столбец из набора данных и разделил его на основе запятых (,), а затем объединил обработанные столбцы с исходным набором данных.

Для этого эксперимента я сосредоточился на данных за последние 10 лет по каждой стране. Итак, я вручную выбрал столбцы, как показано ниже.

Во фрейме данных можно заметить, что у нас есть столбец с именем geo_time (позже переименованный в Country_code), имеющий различные коды стран.

Итак, я приложил немного дополнительных усилий, чтобы собрать список всех кодов стран вместе с соответствующими названиями стран.

Затем этот список был получен в виде фрейма данных pandas.

Позже я объединил этот фрейм данных с исходным фреймом данных.

Визуализация данных

Для месячной визуализации необходимо было преобразовать фрейм данных в сводной набор данных (транспонировать), чтобы сгенерировать данные временного ряда.

Была сделана небольшая дальнейшая очистка фрейма данных путем удаления значений, содержащих пробелы и нечисловые значения.

Итак, я разделил столбец «Дата» на «Год» и «Месяц», а затем сгруппировал по годам, чтобы получить агрегированный показатель безработицы.

Из приведенного выше графика видно, что США произвели значительное количество увольнений в прошлом году, за ними следует Турция.

В Испании наблюдался самый высокий спад в 2013 году, после чего в компаниях значительно увеличилась рабочая сила.

Поскольку моей основной целью в этом эксперименте было сосредоточиться на ситуации с COVID, я решил получить информацию только за период 2019–2020 годов.

Итак, я применил фильтр к столбцу Year со значениями 2019 и 2020, после чего получил график ниже.

Компании в Соединенных Штатах провели массовые увольнения в апреле этого года, после чего эта тенденция в стране начала снижаться.

По возрастным группам

Среди уволенных наиболее пострадавшая возрастная группа — 25–74 года.

Визуализация данных за последние 10 лет

Внезапный всплеск на графике, выделенном выше, произошел во время ситуации с COVID.

Приведенные выше данные мне понадобились для построения на их основе эффективной модели.

Моделирование данных

Я хотел сделать прогнозы для конкретной страны. Итак, я выбрал случайным образом (скажем, Испанию).

Приведенные выше данные явно являются нестационарными данными. Итак, я провел расширенный тест Дики-Фуллера, чтобы проверить стационарность через p-значение.

Текущее значение p согласно приведенному выше рисунку больше 0,05.

Итак, мне пришлось преобразовать данные в стационарные данные, взяв логарифм временного ряда, а затем разность. Для справки вы можете посетить мою другую статью об анализе временных рядов с использованием модели ARIMA.

Процесс повторяли до тех пор, пока значение р не стало ниже 0,05.

Я хотел, чтобы часть моделирования была максимально простой. Итак, я решил выбрать модель ARIMA для моделирования моих данных временных рядов.

Теперь для модели ARIMA нам нужны значения p и q, которые были определены с использованием графиков PACF (частичная автокорреляция) и ACF (автокорреляция).

Обучение модели ARIMA

Я построил график остатка с помощью Kernel Density Estimation (KDE), который представляет собой почти нормальное распределение и, следовательно, предполагает, что моим прогнозам можно доверять.

Оценка среднеквадратичной ошибки

Прогнозирование будущего количества безработных

Теперь мы хотели бы увидеть или спрогнозировать количество безработных в Испании на следующие два года, то есть с сентября 2020 года по июнь 2022 года.

Приведенный выше график говорит нам о том, что уровень безработицы в Испании в ближайшие два года будет почти стабильным с незначительным ростом.

Надеюсь, вам понравилась статья. Пожалуйста, не стесняйтесь оставлять свои комментарии и предложения, если таковые имеются.