Логистическая регрессия - Часть III - Прогноз выживания при катастрофе на Титанике

В этой статье мы будем исследовать набор данных Titanic с логистической регрессией и классификационными метриками.

Давайте посмотрим, как выполнить логистическую регрессию с помощью Python - LogisticRegression () из sklearn.

Я взял набор данных Титаника от Kaggle. Https://www.kaggle.com/c/titanic/data

Здесь я пропустил раздел обработки данных, кроме кодирования. Я напишу новый пост специально для предварительной обработки данных.

# 1 = ›Удалена кабина, поскольку кажется, что она содержит большое количество пустых столбцов, и не так много информации может быть получено с помощью столбца, который имеет высокие управляемые значения.

# 2 = ›Кодируйте столбцы категории. Я собираюсь также выполнить всю кодировку для набора данных проверки (test.csv).

# 3 = ›Отбросьте исходные столбцы и объедините закодированные столбцы.

Модель - Использование логистической регрессии:

Наконец, мы спрогнозировали значения Survived для тестовых данных с помощью метода pred ().

Метрики

Пакеты для импорта для показателей ошибок:

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix,roc_auc_score

1. Матрица неточностей

Это четкое представление о правильных прогнозах. Все правильные прогнозы располагаются по диагонали.

2. Точность классификации

Этот показатель измеряет соотношение правильных прогнозов к общему количеству прогнозов. Для более высокой точности модель дает лучшие результаты.

Выход: 0.8044692737430168

3. Кривая ROC и оценка AUC

Кривая ROC (рабочие характеристики приемника) представляет собой визуализацию частоты ложных срабатываний (ось x) и истинных положительных результатов (ось y).

pred_proba (…) предоставляет вероятность в массивах. pred_prob [:, 1] означает, что мы берем только положительные значения.

Оценка AUC: 0,88

Мы видим, что кривая ROC неплохая. За счет дополнительной предварительной обработки мы можем увеличить показатель AUC. Чтобы узнать больше о кривой ROC, посетите Логистическая регрессия, часть II - Функция затрат и метрики ошибок.

4. Отчет о классификации

Это сводка показателей для каждого класса.

В приведенном выше отчете у нас есть «Точность», «Отзыв», «F1-Score» отдельно для классов 0 и 1.

Заключение:

В этой статье мы увидели, как прогнозировать дискретные значения с помощью логистической регрессии.

Чтобы узнать больше о логистической регрессии:

Логистическая регрессия. Часть I - Преобразование линейного в логистический

Логистическая регрессия. Часть II - Функция затрат и метрики ошибок.

Пожалуйста, попробуйте логистическую регрессию и оставьте здесь свои комментарии.

Спасибо! 👍

Хотели поддержать? Просто щелкайте значок хлопка 👏 сколько угодно раз.

Удачного программирования! 🎈