Что такое обучение с учителем?
Алгоритмы машинного обучения с учителем выполняются, когда наши данные помечаются. У нас есть два типа алгоритмов машинного обучения с учителем
- Регрессия.
- Классификация.
1. Регресс
В этом блоге объясняется: Нажмите здесь.
Настройка гиперпараметров для линейной регрессии: Нажмите здесь
2. Классификация
Когда мы будем использовать классификационное обучение с учителем?
Классификация - это метод, используемый для прогнозирования Категориальной переменной в целевом столбце или зависимой переменной на основе независимых характеристик. Выходные данные для задачи классификации будут в двоичном классе или мультиклассе. Это подпадает под контролируемую технику. Это статистический инструмент, используемый для определения взаимосвязи между выходной переменной, зависимой переменной и одной или несколькими переменными, часто называемыми независимыми переменными.
У нас много алгоритмов по классификации
- Логистическая регрессия.
2. Дерево решений.
3. Случайный лес.
4. KNN
5. Navie Baies.
6. Ada Boosting
7. XG Boost
8. Повышение градиента
Это наиболее частые и популярные алгоритмы машинного обучения в задачах классификации.
Давайте обсудим простой и самый популярный алгоритм в задаче классификации.
1. ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ
Это потому, что он построен на линейной регрессии. Логистическая регрессия - еще один популярный алгоритм ИИ, способный предоставлять двоичные результаты. Это означает, что модель может как предсказать результат, так и указать один из двух классов их значения. Функция также основана на изменении весов алгоритмов, но отличается, поскольку для преобразования результата используется функция нелинейной логики. Эта функция может быть представлена в виде S-образной линии (или) сигмовидной кривой, отделяющей истинные значения от ложных.
Требования к успеху такие же, как и для линейной регрессии - удаление одних и тех же входных выборок значений и уменьшение количества шума (данные с низким значением). Это довольно простая функция, которую можно освоить относительно быстро, и она отлично подходит для выполнения двоичной классификации. Цель логистической регрессии - свести к минимуму ошибки с помощью Log Loss.
Уравнение логистической регрессии выводится из уравнения прямой линии.
Y=C+B1*X1+ B2*X2+…… + Bn*Xn
Диапазон значений от -inf до + inf. Но в логистической регрессии нам нужно предсказать значения от 0 до 1, чтобы преобразовать Y.
Если Y = 0, то 0
Если Y равно 1-Y, то Y = 1, тогда бесконечность
Давайте продолжим преобразование, чтобы получить диапазон от -inf до + inf
Журнал (Y / 1-Y) = ›Y = C + B1 * X1 + B2 * X2 + …… + Bn * Xn
Сделать в диапазоне вероятностей от 0 до 1. Воспользуемся функцией сигмовидной кривой.
Сигмовидная кривая
Сигмовидная кривая имеет все необходимые свойства: чрезвычайно низкие значения в начале, чрезвычайно высокие значения в конце и промежуточные значения в середине, это хороший выбор для моделирования значения вероятности события. Если оценочная вероятность превышает 50%, то модель предсказывает, что экземпляр принадлежит к этому классу (так называемый положительный класс, помеченный «1»), или же он предсказывает, что он не принадлежит (т. е. принадлежит к отрицательный класс, помеченный как «0»). Это делает его двоичным классификатором.
Красная линия в центре - это пороговая линия.
Потеря журнала
В логистической регрессии выходом может быть вероятность «да» (или равная 1). Эта вероятность представляет собой значение от 0 до 1. Логарифмические потери (логарифмические потери) измеряют производительность классификатора, где прогнозируемый результат представляет собой значение вероятности от 0 до 1. Если наши прогнозы модели верны, то наши логарифмические потери будут на 0, иначе больше чем 0. Помните, что чем ниже значение потерь журнала, тем выше точность нашей модели.
Журнал потерь = y log (p) + (1-y) log (1-p)
Где p - значение вероятности y
Допущения логистической регрессии
1. Независимость ошибок, при которой результаты всех групп выборки отделены друг от друга (т. Е. Отсутствуют повторяющиеся ответы).
2. Линейность в логите для любых непрерывных независимых переменных.
3. Отсутствие мультиколлинеарности.
4. Отсутствие сильных и влиятельных выбросов.
Прежде чем переходить к настройке гиперпараметров, нам нужно изучить показатели производительности для задачи общей классификации.
Блог о показателях производительности для задач классификации: Нажмите здесь
Мы узнали точность, отзыв, точность, специфичность, чувствительность и т. Д. Мы можем использовать настройку гиперпараметров для логистической регрессии.
Настройка гиперпараметров
В логистической регрессии настройка выполняется для корректировки пороговых значений кривой. Принадлежит ли точка к этому классу или нет. Он уменьшает или увеличивает оптимальное значение отсечки для определения наилучшего значения отсечки. Причина выполнения настройки параметров - уменьшить потери журнала модели. Эти два метода настройки пороговых значений.
1. Затратный метод.
2. Метод индекса Юдена.
1. Затратный метод
Анализ затрат - один из методов определения оптимального порогового значения. Стоимость рассчитывается при различных значениях отсечения для достижения разумного баланса между ложными срабатываниями и ложными отрицаниями, когда известна стоимость ложных срабатываний и ложных отрицаний. В моделировании логистической регрессии точка отсечения - это точка, в которой лицо, принимающее решение, решает, принять или отклонить.
Модель полной логистической регрессии имеет разные значения для ложноположительных (FP) и ложноотрицательных (FN). Таким образом, мы можем использовать затратный метод для расчета оптимального значения отсечения. В этом методе мы находим оптимальное значение отсечения, при котором общие затраты минимальны. Общая стоимость рассчитывается по формуле:
total_cost = FN x C_1 + FP x C_2
Где,
C_1: стоимость ложных срабатываний.
C_2: стоимость ложных срабатываний.
Стоимость может быть определена с использованием бизнес-знаний.
2. Индекс Юдена
Это еще один метод расчета порогового значения для нашей модели. Индекс Юдена - это вероятность отсечения классификации, при которой (Чувствительность + Специфичность - 1) максимальна.
Индекс Юдена = макс (Чувствительность + Специфичность - 1)
(OR)
= макс (TPR + TNR - 1)
(OR)
= макс (TPR - FPR)
После того, как вы настроите параметры логистической регрессии, нам нужно выполнить выбор функций, чтобы удалить недостаточные функции из нашей модели. Следовательно, это снижает сложность модели.
Выбор функции
- Обратное устранение
- Прямой выбор
- Рекурсивное исключение признаков (RFE).
Преимущества логистической регрессии
- Очень быстро для неизвестных записей
- Он хорошо работает с линейно разделяемыми данными.
- В нашей модели нет дисперсионных ошибок
- Это легкий и простой алгоритм работы
Недостатки логистической регрессии
- Будучи простым, он не научится изучать сложность, модель проблемы будет давать сбои в работе на низком уровне.
- Он строит линейные границы.
Сноски
Наша цель логистической регрессии - минимизировать логарифмические потери модели, и наша модель не должна иметь больше ошибок дисперсии и ошибки смещения. Мы должны соответствующим образом настроить модель, чтобы сбалансировать смещение и дисперсию.
Да, это был длинный, но наиболее часто используемый в отраслях, популярный и простой алгоритм под задачей классификации.
Надеюсь, вам понравился этот блог
Спасибо за прочтение :)