Введение
Этот проект представляет собой запись в блоге программы Data Scientist Nano Degree от Udacity. Я предпочитаю работать с набором данных о диабете с веб-сайта Kaggle. Этот набор данных содержит несколько медицинских предикторов (независимых) переменных и одну целевую (зависимую) переменную, Исход. Независимые переменные включают количество беременностей, которые были у пациентки, их ИМТ, уровень инсулина, возраст и так далее.
У меня есть несколько вопросов, связанных с диабетом. Я нашел свои ответы в этом наборе данных, используя в этом анализе пакеты Python pandas, NumPy, seaborn, matplotlib, plotly.express.
Мои вопросы касались следующего:
- Сколько людей болеют диабетом?
В этом наборе данных 268 человек страдают диабетом, а 500 человек не страдают диабетом.
- Сколько женщин страдают диабетом во время беременности?
В этом наборе данных 1304 (44,2%) женщины страдают диабетом во время беременности, что меньше, чем женщин, не болеющих в этот период.
- Каков средний уровень глюкозы у людей, страдающих диабетом?
Средний уровень глюкозы для людей, страдающих диабетом, составляет 141,26, а для тех, у кого нет - 109,98.
Заключение
В заключение, взглянув на набор данных по диабету и ответив на три вопроса, мы можем сказать, что людей, страдающих диабетом, меньше, чем тех, кто не страдает. Процент женщин, страдающих сахарным диабетом во время беременности, составляет 44,2%. Кроме того, средний уровень глюкозы у людей, страдающих диабетом, составляет 141,26, что выше, чем у людей, не страдающих диабетом.
Чтобы узнать больше об этом проекте, перейдите по ссылке на мой доступный Github Github
Больше контента на plainenglish.io