В моей предыдущей статье я объяснил вам процесс создания алгоритма машинного обучения для прогнозирования сердечных заболеваний на основе характеристик Framingham Risk Score. Проверьте это здесь, если вы этого не сделали, чтобы лучше понять, о чем идет речь. Это, как говорится…

Время моделировать страну!

Чтобы предсказать все эти болезни, я сначала должен смоделировать популяцию. В данном случае, поскольку я испанец, я решил смоделировать Испанию. Но что такое «модель страны» и почему?

Когда я говорю «смоделировать страну», я имею в виду создание набора данных, содержащего всю необходимую мне информацию (например, о привычках курения, возрасте, поле и т. д.) на основе различных статистических данных населения Испании. .

Это интересная и сложная задача, потому что медицинская информация всегда актуальна. Нет общедоступной или доступной информации о медицинской информации людей, такой как «Национальное среднее значение артериального давления».

Из-за этого в первой части этого проекта я исключил все медицинские признаки из исходного набора данных. Я обучил свою модель более обычным вещам, таким как «привычки курения», чтобы использовать эту прогностическую модель в будущем.

Мое секретное оружие

Очень просто: INE (Instituto Nacional de Estadística). В Национальном статистическом институте я нашел почти все, что мне было нужно: возраст, пол, ИМТ, привычки к курению, малоподвижный образ жизни и употребление алкоголя. Для диабета мне пришлось провести более глубокое исследование.

Имея всю эту информацию, я создал набор данных. Используя Python и Pandas, понемногу, каждую функцию сразу, я реализовал все свои данные. Начиная с возраста и пола.

Как только это было сделано, я смог представить остальную часть своей информации. Имейте в виду, что INE разбивает большую часть своей статистики по полу и возрастным диапазонам в 5 лет, поэтому правильное выполнение первой части было чрезвычайно важно для продолжения.

Повозившись с моим любимым Python, я заполнил свои столбцы данными, которые хотел. Если вы знакомы со всем процессом, я настоятельно рекомендую вам проверить мой репозиторий, где у меня есть несколько хорошо подробных блокнотов Jupyter, объясняющих каждый шаг.

Давайте визуализируем данные!

Я провел много исследований с моим новым набором данных, но предпочитаю, чтобы здесь все было просто. Я не хочу ошеломлять вас (даже если эти графики, которые я сделал с помощью Tableau, довольно крутые)! Помимо шуток, помните, что если хотите, вы можете повозиться с этим набором данных и поискать больше информации. При этом давайте проверим некоторые графики.

Age vs Risk — один из первых подходов к моей проблеме. Помните, что из моей первой статьи я разделил риск сердечно-сосудистых заболеваний на 5 групп. 1 — «Низкий риск», 5 — «Очень высокий риск». Кроме того, возраст в моем наборе данных варьируется от 30 до 80 лет и разделен на группы по 5 лет.

Вторая итерация первого сюжета для меня намного интереснее. Он также показывает средний риск с учетом пола. Как видите, у мужчин этот риск намного выше, чем у женщин.

И, возможно, это хорошо объяснено на этой стене. У мужчин меньше вредных привычек, таких как курение или употребление алкоголя, которые являются серьезными факторами риска, особенно курение.

Выводы

Ну наконец то! Изучив свои данные, я вижу 3 основные проблемы испанского населения.

Первое может быть вполне очевидным, поскольку средний возраст — это время, когда здоровье людей становится более чувствительным к различным проблемам. Однако, должен признаться, выводы 2º и 3º меня впечатлили.

Согласно параметрам шкалы Framingham, женщины имеют более естественную вероятность наличия сердечных заболеваний. Когда они достигают менопаузы, их сильный гормональный барьер начинает снижаться. Но, как я уже сказал, поскольку мужчины потребляют гораздо больше вредных веществ, их процент риска ниже.

Если эта тенденция не изменится, похоже, в ближайшие десятилетия мы увидим увеличение числа испанских женщин, страдающих одним из этих сердечных заболеваний.

Последние мысли

Как я обычно говорю, это не конец, а начало. В этих двух статьях я показал вам, как создал модель машинного обучения и как применил ее к модели населения Испании.

Однако этот проект далек от завершения. И я говорю не о самом анализе, а о масштабах проблемы. Наличие этих данных о стране (в данном случае об Испании) мало что говорит само по себе. Конечная цель этого проекта — изучение каждого из регионов Испании.

Затем мы могли бы проанализировать, где и как правительства должны действовать, дав более конкретные ответы.

В некоторых регионах, возможно, есть большое количество молодых курильщиков, в то время как в других, возможно, существует тревожный процент людей с избыточным весом. Подобные конкретные кампании по охране здоровья могли бы дать лучшие результаты и помочь в борьбе с этими ужасными болезнями.

И это все! Большое спасибо за прочтение этой статьи! Мне очень понравился этот проект, и я вложил в него много себя. Надеюсь, вам тоже было интересно! Если вам понравилось, напоминаю, что вы можете хлопать и расшаривать! Это даст мне дополнительную поддержку для продолжения моих исследований. А если у вас есть какие-либо сомнения или вопросы, давайте!Я с удовольствием отвечу на них.