В этом исследовании мы изучим набор данных Framingham и попытаемся предсказать классификацию болезни TenYearCHD с различными особенностями, а затем мы предскажем, как работает наша модель на основе различных факторов.

Сначала мы прочитаем данные, используя функцию Python read.csv(), а затем посмотрим на их структуру, используя функцию .info(), и посмотрим на сводку, используя функцию описать(), и посмотрим на первые несколько строк, используя функцию head(), как показано ниже. ниже:-

Далее мы посмотрим, как переменные коррелируют друг с другом, используя функцию corr().

Похоже, что возраст, sysBP и prevalentHyp имеют сильную положительную корреляцию с TenYearCHD.

Теперь мы отбросим значения, которые имеют na.

В приведенном ниже коде мы будем создавать конвейеры числовых переменных, а также устанавливать отсутствующие значения в медианы, а также разделять данные на разделение обучения/тестирования от 80% до 20%, а также устанавливать случайное состояние, чтобы мы могли воспроизвести результаты. если мы хотим.

На этом шаге ниже мы преобразуем и подгоним переменные на основе параметров, указанных выше.

Далее мы настроим конвейер категориальных переменных, а также установим отсутствующие переменные в качестве наиболее частых импутеров, а также настроим категориальные переменные для использования кодировщика onehot.

Затем мы подгоняем конвейер для категориальных переменных.

На следующем шаге мы объединяем числовые и категориальные конвейеры и объединяем их, устанавливаем набор поездов и предварительную обработку и устанавливаем набор переменных X и y.

Затем я запущу модель в поезде и проверю набор с помощью SVC (классификатор опорных векторов), а затем использую набор тестов, чтобы увидеть, какие результаты прогнозирования мы получаем, используя набор тестовых данных для машин опорных векторов, а также случайный Лесная модель тоже.

Как мы видим, модель случайных лесов лучше, чем модель SVM, с небольшим отрывом, как показано выше и ниже графически.

Ниже мы также можем видеть, что, когда мы группируем TenYearCHD по возрасту, мы видим, что по мере увеличения возрастной группы шансы на TenYearCHD также растут.

Использованная литература:

  • код повторно используется из приведенных ниже ссылок.




https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291