Привет всем, где бы вы ни были, надеюсь, вы все здоровы. Пользуясь случаем, хочу поделиться своим опытом прогнозирования состояния безопасности пассажиров титанической трагедии на основе титанического набора данных с https://www.kaggle.com/competitions/titanic/data.

В этом проекте я использую методологию CRISP-DM (Cross Standard Industry Process for Data Mining).

1. Деловое понимание

  • Бизнес-цель: Предсказать, сколько пассажиров выживет после трагедии Титаника.
  • Цель модели: создать классификационную машину, которая предскажет, выживет пассажир или нет. Отметка «Выжить» как «1», Отметка «Не выжить» как «0».
  • Критерии успеха модели: показатель ROC AUC 90+

2 . Понимание данных

А. Описание данных

В этом разделе набор данных разделен на 2 части, состоящие из данных обучения с именем «df_train» и данных тестирования с именем «df_backtesting». И в этом разделе мы попытаемся описать наш набор данных, например, импортировать некоторую библиотеку для обработки данных, узнать базовую статистику из нашего набора данных и узнать тип данных нашего набора данных.

B. EDA (исследовательский анализ данных)

В этом разделе я анализирую данные, чтобы найти понимание.

3. Подготовка данных

А. Очистка данных

В этом разделе я буду:

  • Проверка баланса набора данных
  • Проверка пропущенных значений
  • Сгруппируйте несколько столбцов в один
  • Удалить столбцы с высокой кардинальностью

B. Обработка пропущенных значений

В этом разделе я буду иметь дело с пропущенными значениями. Чтобы обработать пропущенные значения в столбце числового типа, я заполняю его «медианным значением». В столбце типа категории я заполняю его «наиболее часто встречающимися» значениями.

4. Разработка функций

А. Преобразование признаков

В этом разделе я буду масштабировать числовые столбцы, чтобы машинному обучению было проще обрабатывать данные, и преобразовать категориальные столбцы в числовые, потому что большинство видов машинного обучения может обрабатывать только числовые данные.

B. Выбор функции

В этом разделе я выберу столбцы высокого качества для машинного обучения. Во-первых, я использую метод «Спирманра», чтобы найти корреляцию каждого столбца. После этого я использую метод «Расчет WoE», чтобы найти информационные значения из каждого столбца. После этого используйте метод «Взаимная информация и Kbest», чтобы выбрать лучшие столбцы для машинного обучения. И я использую метод повторной выборки для балансировки набора данных.

5. Моделирование

В этом разделе я попробую некоторые модели машинного обучения, чтобы найти лучшую модель.

6 .Оценка

В этом разделе я оценю модель, например, настрою гиперпараметр и классификатор голосования.

Наконец, я заканчиваю этот проект, и на этом я получаю оценку 0,77990 в kaggle.

Я был бы очень признателен, если бы вы дали мне предложения по улучшению оценки roc auc или оценки представления на kaggle, не стесняйтесь критиковать меня. Спасибо за внимание.