Автор: Марсель Брито.

Набор данных: болезни сердца из репозитория машинного обучения UCI

Этот набор данных содержит наблюдения за 303 пациентами по 14 признакам, протестированным на наличие сердечных заболеваний у пациента из базы данных Кливленда. Процесс очистки данных очень важен в анализе данных и машинном обучении, потому что это шаг, который организует данные и предоставляет статистические методы для подбора лучшей модели, которая может привести к лучшей оценке. Поскольку данные могут быть очень зашумленными и нерелевантными, с высокой степенью корреляции в своих характеристиках или характеристиках, которые могут оказать влияние на предвзятость, очень важно настроить и подготовить набор данных, чтобы максимально использовать его.

Инструментом, используемым для подготовки данных, является Rapid Miner Studio, инструмент, который вместе с предоставлением способа построения статистических моделей и оценки их производительности содержит функцию Turbo Prep, которая позволяет очищать и вносить необходимые корректировки в данные, подлежащие обработке. использовал. Среди основных функций Turbo Prep — уменьшение размерности данных для устранения высококоррелированных предикторов, изменение типов данных, заполнение отсутствующих значений и создание фиктивных столбцов для номинальных функций.

Основной способ импорта данных в Rapid Miner — через кнопку «Импорт данных» на боковой панели «Репозиторий» на вкладке «Дизайн». Затем, чтобы начать преобразование данных с помощью функции Turbo Prep, перейдите на вкладку Turbo Prep после того, как данные будут загружены в хранилище данных.

Шаги, используемые для преобразования данных с этими данными, были следующими:

  1. Переменная исхода AHD переименована в Heart Disease, если щелкнуть правой кнопкой мыши по столбцу, чтобы получить доступ к панели преобразования.

2. отсутствующие значения из функции CA (числовой) были заполнены средним значением

3. Уменьшение размерности не применялось, так как не было обнаружено высококоррелированных предикторов.

4. Функции возраста и пола были удалены из-за предупреждения о потенциальной предвзятости.

5. Количественные признаки были стандартизированы, чтобы иметь их в одном масштабе и избежать большой дисперсии.

Этого можно добиться, выбрав нужные числовые столбцы с помощью Shift + Click, а затем щелкнув правой кнопкой мыши, чтобы перейти в меню нормализации.

После этого, выбрав стандартизацию и применив ее

6. К классам оставшихся 2 номинальных функций «Боль в груди» и «Тал» было применено фиктивное кодирование после выбора желаемых столбцов и применения.

После выполнения этого шага в качестве сводки данные не содержат пропущенных значений, переменная результата была переименована, 2 столбца были исключены, значения числовых столбцов были нормализованы, а номинальные столбцы были закодированы в свои классы, что позволило привести данные в лучшую форму. чтобы модели лучше подходили.

В заключение, очень быстро, инструмент Turbo Prep позволяет мне выполнять эти модификации, которые обычно требуют, чтобы код расширения выполнялся на Python простым способом и имел общую перспективу статистики из доступных данных. Одной из обнаруженных проблем была возможность сравнить корреляцию между предикторами желания и исходной переменной Болезни сердца.

Первая оценка модели обучения статистике с использованием автоматической модели RapidMiner с исходными данными.

Оценка модели обучения после подготовки данных с использованием автоматической модели RapidMiner с преобразованными данными