Логистическая регрессия - Часть III - Прогноз выживания при катастрофе на Титанике
В этой статье мы будем исследовать набор данных Titanic с логистической регрессией и классификационными метриками.
Давайте посмотрим, как выполнить логистическую регрессию с помощью Python - LogisticRegression () из sklearn.
Я взял набор данных Титаника от Kaggle. Https://www.kaggle.com/c/titanic/data
Здесь я пропустил раздел обработки данных, кроме кодирования. Я напишу новый пост специально для предварительной обработки данных.
# 1 = ›Удалена кабина, поскольку кажется, что она содержит большое количество пустых столбцов, и не так много информации может быть получено с помощью столбца, который имеет высокие управляемые значения.
# 2 = ›Кодируйте столбцы категории. Я собираюсь также выполнить всю кодировку для набора данных проверки (test.csv).
# 3 = ›Отбросьте исходные столбцы и объедините закодированные столбцы.
Модель - Использование логистической регрессии:
Наконец, мы спрогнозировали значения Survived для тестовых данных с помощью метода pred ().
Метрики
Пакеты для импорта для показателей ошибок:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix,roc_auc_score
1. Матрица неточностей
Это четкое представление о правильных прогнозах. Все правильные прогнозы располагаются по диагонали.
2. Точность классификации
Этот показатель измеряет соотношение правильных прогнозов к общему количеству прогнозов. Для более высокой точности модель дает лучшие результаты.
Выход: 0.8044692737430168
3. Кривая ROC и оценка AUC
Кривая ROC (рабочие характеристики приемника) представляет собой визуализацию частоты ложных срабатываний (ось x) и истинных положительных результатов (ось y).
pred_proba (…) предоставляет вероятность в массивах. pred_prob [:, 1] означает, что мы берем только положительные значения.
Оценка AUC: 0,88
Мы видим, что кривая ROC неплохая. За счет дополнительной предварительной обработки мы можем увеличить показатель AUC. Чтобы узнать больше о кривой ROC, посетите Логистическая регрессия, часть II - Функция затрат и метрики ошибок.
4. Отчет о классификации
Это сводка показателей для каждого класса.
В приведенном выше отчете у нас есть «Точность», «Отзыв», «F1-Score» отдельно для классов 0 и 1.
Заключение:
В этой статье мы увидели, как прогнозировать дискретные значения с помощью логистической регрессии.
Чтобы узнать больше о логистической регрессии:
Логистическая регрессия. Часть I - Преобразование линейного в логистический
Логистическая регрессия. Часть II - Функция затрат и метрики ошибок.
Пожалуйста, попробуйте логистическую регрессию и оставьте здесь свои комментарии.
Спасибо! 👍
Хотели поддержать? Просто щелкайте значок хлопка 👏 сколько угодно раз.
Удачного программирования! 🎈