Эта статья была написана Хейлом Кизилдуманом и Алпарсланом Месри.

В конце 2009 г. и начале 2010 г. опросы по гриппу H1N1 проводились по телефону в США. В этом опросе, помимо социальных, экономических и демографических вопросов, респондентов спрашивали, есть ли у них вакцина против H1N1 или против сезонного гриппа. С помощью этой информации предполагается предсказать, есть ли у этих людей вакцины против H1N1 и сезонного гриппа.
Это исследование является предварительной подготовкой к будущим исследованиям. В качестве метода использовались 5 алгоритмов классификации. Это соответственно; Случайный лес, XGBoost, градиентный спуск, логистическая регрессия и KNN. Для каждого метода были выбраны 3 независимые переменные с наивысшей корреляцией, а в конце исследования была дана сравнительная таблица, показывающая успешность моделей.

Доступ к исследованию и набору данных можно получить здесь.

Сначала импортируются необходимые библиотеки.

Затем загружаются файлы csv. Содержимое таблицы df1 такое же, как и в следующих таблицах.

В наборе данных есть несколько независимых переменных.

Затем просматривается переменная df2, содержащая независимые переменные. В этой задаче ожидается оценка столбцов h1n1_vaccine и Season_vaccine.

На следующем шаге проверялось, сколько пропущенных данных в столбцах.

Быстрый взгляд на свойства каждого столбца делается с помощью функции описания.

Зависимые и независимые переменные объединяются в переменной united_df для просмотра корреляций между столбцами.

При изучении тепловой карты корреляции столбцы, наиболее коррелирующие с первой целевой переменной h1n1_vaccine, следующие:

#doctor_recc_h1n1: 0,39
#opinion_h1n1_risk: 0,32
#opinion_h1n1_vacc_efficient: 0,27
#opinion_seas_risk: 0,26
#health_insurance: 0,22
#doctor_recc_seasonal: 0,21

Столбцы, наиболее коррелирующие со второй целевой переменной, столбцом Season_vaccine, следующие:

#opinion_seas_risk: 0,39
#doctor_recc_seasonal: 0,37
#opinion_seas_vacc_efficient: 0,36
#opinion_h1n1_risk: 0,22
#opinion_h1n1_vacc_efficient: 0,21
#doctor_recc_h1n1: 0. 2
#health_insurance : 0,2

В дополнение к этим сильно коррелированным переменным существует также высокая корреляция между переменными h1n1_vaccine и Season_vaccine. Однако, поскольку в процессе оценки нельзя использовать зависимые переменные, корреляциями этих столбцов пренебрегают.

В приведенном ниже блоке кода зависимые переменные копируются в переменную y. После этого переменные df1 и y были разделены на 66% / 33% в качестве данных обучения и проверки. После этого процесса значения nan в переменных x_train и x_val заполняются как средние.

На следующем этапе создается x_train1 для прогнозирования столбца первой целевой переменной h1n1_vaccine, а x_train2 создается для прогнозирования второй целевой переменной Season_vaccine. К этим переменным были добавлены только 3 переменные, наиболее коррелирующие с целевыми переменными в переменной df1.

Переменные, необходимые для таблицы сравнения, создаются и добавляются в следующий блок кода.

Было вызвано и запущено 5 алгоритмов машинного обучения для h1n1_vaccine. Показатели точности моделей добавляются в переменную h1n1_accuracy с помощью функции добавления.

Было вызвано и запущено 5 алгоритмов машинного обучения для Season_vaccine. Показатели точности моделей добавляются к переменной Season_accuracy с помощью функции добавления.

Переменная Model_accuracy_scores превращается в фрейм данных, а затем вызывается этот фрейм данных.

Результаты приведены ниже:

В то время как алгоритм XGboost оценил целевую переменную h1n1_accuracy с показателем точности 0,824030, лучшим способом по сравнению с другими алгоритмами, алгоритм KNN показал самую слабую производительность с показателем точности 0,814613. В Seasonal_accuracy Random forest показал наилучшую производительность с показателем точности 0,745859, в то время как KNN показал наименьшую производительность в этой области с показателем точности 0,740186. Когда мы смотрим на показатель точности, разница в оценках между алгоритмами очень мала.

Эта статья была подготовлена ​​для того, чтобы быстро найти решение о прогнозе вакцинации. Это первый шаг более всестороннего изучения. В будущих исследованиях могут использоваться другие метрики, различные методы выбора независимых переменных, оптимизация параметров модели и методы суммирования.

Ресурсы: