Подготовка данных перед моделированием с помощью классификатора логистической регрессии

Логистическая регрессия — это алгоритм классификации машинного обучения, несмотря на его название «Регрессия», который используется для прогнозирования вероятности возникновения события. Это называется «логистической» регрессией из-за использования логистической функции (также известной как сигмовидная функция) для прогнозирования.

Что касается фона, классификатор логистической регрессии имеет некоторые преимущества, которые делают его популярным среди других алгоритмов классификации. Этими сильными сторонами являются:

Интерпретируемость: логистическая регрессия может дать интерпретируемые результаты. Значение оценки коэффициентов представляет эффект/влияние каждой функции на переменную отклика. Зная каждый коэффициент признака, мы можем просто увидеть, какой признак оказывает наибольшее влияние на результат модели классификатора.
Низкий риск переобучения: логистическая регрессия имеет низкий риск переоснащения, поскольку имеет ограниченное количество параметров и простоту модели по сравнению с другим алгоритмом, таким как более сложное дерево решений. При небольшом количестве параметров алгоритм с меньшей вероятностью улавливает шумы или нерелевантные закономерности в данных.
Эффективность: логистическая регрессия эффективна, когда речь идет об обработке больших наборов данных с множеством функций. Его вычисления относительно быстрые, что делает его подходящим для работы с крупномасштабным набором данных. Время, необходимое для настройки модели логистической регрессии, также меньше по сравнению с другим алгоритмом с более сложной моделью.

Однако эти преимущества связаны с предположениями, которые необходимо выполнить, чтобы использовать модель логистической регрессии. В этой статье вы найдете 4 вещи, которые вам нужно подготовить с вашими данными, чтобы соответствовать некоторым предположениям алгоритма, прежде чем моделировать с использованием классификатора логистической регрессии. Давайте начнем!

1. Цель является двоичной

Поскольку логистическая регрессия является алгоритмом классификации, обязательно иметь значение переменной Target / Response в двоичном формате. Например:

Да или нет
Отток или не отток
Мужчина или женщина

Как узнать, является ли моя целевая переменная двоичной? Мы можем просто выполнить проверку, подсчитав количество уникальных значений в переменной ответа. Он считается двоичным, если уникальное значение равно двум, не больше и не меньше.

2. Выбросов нет

Выбросы, как правило, отрицательно влияют на производительность модели. Это может снизить производительность алгоритма/модели, поскольку модель имеет тенденцию к переобучению данных, ставит под сомнение способность модели точно прогнозировать или производить правильную классификацию в наборе тестовых данных или при ее развертывании.

Как узнать, содержит ли мой набор данных выбросы? Мы можем просто проверить это, рассчитав Z-Score (насколько стандартное отклонение точки данных от ее среднего значения). Если предположить, что если точка данных имеет Z-показатель больше 3, она считается выбросом, мы можем легко обнаружить выбросы в данных. Выбросы также можно обнаружить вручную, нанеся числовую характеристику на гистограмму. Если есть какие-либо точки данных со значением, намного большим или меньшим, чем среднее значение или остальные данные, и имеют небольшое количество значений на гистограмме, это можно рассматривать как выбросы.

3. Функции независимы

Функции в данных должны быть независимыми, то есть независимая переменная не должна исходить из измерения другой функции или быть связанной друг с другом.

Как узнать, являются ли мои функции независимыми? Мы можем просто проверить это, выполнив ручную проверку того, происходит ли функция от другой функции, и построив график корреляции между каждой функцией. Если есть один или несколько признаков, которые имеют высокое значение корреляции с другим признаком (признаками), можно просто сказать, что эти признаки не являются независимыми.

4. Между признаками нет мультиколлинеарности.

Между независимыми переменными не должно быть мультиколлинеарности. Определение мультиколлинеарности — это когда две или более функции коррелируют друг с другом / имеют высокое значение корреляции таким образом, что каждая из этих функций не представляет какую-либо уникальную ценность или информацию.

Как узнать, есть ли у моих объектов мультиколлинеарность? Проверяя значение VIF (коэффициент инфляции дисперсии), которое вычисляет корреляцию и силу каждой функции. Чем выше VIF, тем больше корреляция между признаками.

В заключение, необходимо выполнить эти четыре предположения, чтобы иметь возможность использовать классификатор логистической регрессии для вашей модели машинного обучения. Если одно или несколько из приведенных выше предположений не выполняются, рекомендуется использовать другую модель классификации машинного обучения. Надеемся, что эта статья поможет вам, читатели, подготовить данные перед их подгонкой к вашей модели классификатора логистической регрессии. Спасибо, что нашли время прочитать мою статью!

Подготовка данных перед моделированием с помощью классификатора логистической регрессии

1. Цель является двоичной

2. Выбросов нет

3. Функции независимы

4. Между признаками нет мультиколлинеарности.

Вопросы по теме