Введение

Этот проект представляет собой запись в блоге программы Data Scientist Nano Degree от Udacity. Я предпочитаю работать с набором данных о диабете с веб-сайта Kaggle. Этот набор данных содержит несколько медицинских предикторов (независимых) переменных и одну целевую (зависимую) переменную, Исход. Независимые переменные включают количество беременностей, которые были у пациентки, их ИМТ, уровень инсулина, возраст и так далее.

У меня есть несколько вопросов, связанных с диабетом. Я нашел свои ответы в этом наборе данных, используя в этом анализе пакеты Python pandas, NumPy, seaborn, matplotlib, plotly.express.

Мои вопросы касались следующего:

  • Сколько людей болеют диабетом?

В этом наборе данных 268 человек страдают диабетом, а 500 человек не страдают диабетом.

  • Сколько женщин страдают диабетом во время беременности?

В этом наборе данных 1304 (44,2%) женщины страдают диабетом во время беременности, что меньше, чем женщин, не болеющих в этот период.

  • Каков средний уровень глюкозы у людей, страдающих диабетом?

Средний уровень глюкозы для людей, страдающих диабетом, составляет 141,26, а для тех, у кого нет - 109,98.

Заключение

В заключение, взглянув на набор данных по диабету и ответив на три вопроса, мы можем сказать, что людей, страдающих диабетом, меньше, чем тех, кто не страдает. Процент женщин, страдающих сахарным диабетом во время беременности, составляет 44,2%. Кроме того, средний уровень глюкозы у людей, страдающих диабетом, составляет 141,26, что выше, чем у людей, не страдающих диабетом.

Чтобы узнать больше об этом проекте, перейдите по ссылке на мой доступный Github Github

Больше контента на plainenglish.io