Привет всем, где бы вы ни были, надеюсь, вы все здоровы. Пользуясь случаем, хочу поделиться своим опытом прогнозирования состояния безопасности пассажиров титанической трагедии на основе титанического набора данных с https://www.kaggle.com/competitions/titanic/data.
В этом проекте я использую методологию CRISP-DM (Cross Standard Industry Process for Data Mining).
1. Деловое понимание
- Бизнес-цель: Предсказать, сколько пассажиров выживет после трагедии Титаника.
- Цель модели: создать классификационную машину, которая предскажет, выживет пассажир или нет. Отметка «Выжить» как «1», Отметка «Не выжить» как «0».
- Критерии успеха модели: показатель ROC AUC 90+
2 . Понимание данных
А. Описание данных
В этом разделе набор данных разделен на 2 части, состоящие из данных обучения с именем «df_train» и данных тестирования с именем «df_backtesting». И в этом разделе мы попытаемся описать наш набор данных, например, импортировать некоторую библиотеку для обработки данных, узнать базовую статистику из нашего набора данных и узнать тип данных нашего набора данных.
B. EDA (исследовательский анализ данных)
В этом разделе я анализирую данные, чтобы найти понимание.
3. Подготовка данных
А. Очистка данных
В этом разделе я буду:
- Проверка баланса набора данных
- Проверка пропущенных значений
- Сгруппируйте несколько столбцов в один
- Удалить столбцы с высокой кардинальностью
B. Обработка пропущенных значений
В этом разделе я буду иметь дело с пропущенными значениями. Чтобы обработать пропущенные значения в столбце числового типа, я заполняю его «медианным значением». В столбце типа категории я заполняю его «наиболее часто встречающимися» значениями.
4. Разработка функций
А. Преобразование признаков
В этом разделе я буду масштабировать числовые столбцы, чтобы машинному обучению было проще обрабатывать данные, и преобразовать категориальные столбцы в числовые, потому что большинство видов машинного обучения может обрабатывать только числовые данные.
B. Выбор функции
В этом разделе я выберу столбцы высокого качества для машинного обучения. Во-первых, я использую метод «Спирманра», чтобы найти корреляцию каждого столбца. После этого я использую метод «Расчет WoE», чтобы найти информационные значения из каждого столбца. После этого используйте метод «Взаимная информация и Kbest», чтобы выбрать лучшие столбцы для машинного обучения. И я использую метод повторной выборки для балансировки набора данных.
5. Моделирование
В этом разделе я попробую некоторые модели машинного обучения, чтобы найти лучшую модель.
6 .Оценка
В этом разделе я оценю модель, например, настрою гиперпараметр и классификатор голосования.
Наконец, я заканчиваю этот проект, и на этом я получаю оценку 0,77990 в kaggle.
Я был бы очень признателен, если бы вы дали мне предложения по улучшению оценки roc auc или оценки представления на kaggle, не стесняйтесь критиковать меня. Спасибо за внимание.