Что такое функция потерь?

В машинном обучении функция потерь является мерой того, насколько хорошо работает модель машинного обучения. Он количественно определяет несоответствие между прогнозируемым результатом модели и истинным или ожидаемым результатом.

Цель алгоритма машинного обучения — минимизировать функцию потерь, поскольку меньшие потери указывают на лучшую производительность и более близкое приближение к желаемому результату. Оптимизируя функцию потерь, модель корректирует свои параметры или веса, чтобы улучшить свои прогнозы.

Выбор подходящей функции потерь зависит от конкретной проблемы и желаемого поведения модели. Крайне важно выбрать функцию потерь, которая соответствует целям задачи и характеру данных.

Разница между функцией потерь и функцией стоимости.

Функция потери:

Функция потерь — это математическая функция, которая измеряет ошибку или несоответствие между прогнозируемым результатом модели машинного обучения и фактическим целевым результатом. Он определяет, насколько хорошо модель работает на одном обучающем примере. Цель состоит в том, чтобы минимизировать значение функции потерь, указав на лучшее соответствие модели данным.

Функция стоимости:

Функция стоимости, также известная как целевая функция,является средним значением функций потерь по всему набору обучающих данных. Он измеряет общую производительность модели, учитывая средние потери по всем обучающим примерам. Функция стоимости используется в процессе обучения для оптимизации параметров модели.

Какая польза от функции потерь в глубоком обучении?

Нейронная сеть берет входные данные, комбинирует их с регулируемыми весами и смещениями, обрабатывает их с помощью функций активации, делает прогнозы, вычисляет потери, корректирует веса и смещения и повторяет этот процесс для нескольких эпох, чтобы минимизировать потери и улучшить свои прогностические возможности. .

Функция «Различные виды потерь», используемая в глубоком обучении.

Потеря регрессии:

  • Среднеквадратическая ошибка (MSE): измеряет среднеквадратичную разницу между прогнозируемым и целевым значениями.
  • Средняя абсолютная ошибка (MAE): вычисляет среднюю абсолютную разницу между прогнозируемым и целевым значениями.
  • Huber Loss: объединяет MSE и MAE, обеспечивая надежную функцию потерь, которая менее чувствительна к выбросам.

Потеря классификации:

  • Бинарная кросс-энтропия. Используется в задачах бинарной классификации и измеряет несоответствие между прогнозируемым и целевым распределениями вероятностей.
  • Категорная кросс-энтропия. Подходит для многоклассовой классификации и количественно определяет разницу между прогнозируемым и целевым распределениями вероятностей.

Потеря автоэнкодера:

  • Расхождение KL. Часто используется в вариационных автоэнкодерах. Он измеряет разницу между прогнозируемым и целевым распределениями вероятностей.

Потеря ГАН:

  • Потери дискриминатора: определяет разницу между прогнозируемыми и целевыми выходными данными дискриминатора в генеративно-состязательной сети (GAN).
  • Minmax GAN Loss: используется для обучения генератора и дискриминатора в GAN путем минимизации разницы между их предсказаниями.

Потеря обнаружения объекта:

  • Focal Loss. Разработанный для решения проблемы дисбаланса классов при обнаружении объектов, он присваивает более высокие веса сложным примерам.

Потеря встраивания слов:

  • Потеря триплетов. Обычно используется при встраивании слов. Он гарантирует, что похожие слова будут ближе в пространстве встраивания, а непохожие слова будут дальше друг от друга.

В этой статье мы углубимся в функции потерь регрессии и классификации, обеспечив глубокое понимание их математических формулировок, преимуществ и вариантов использования.

Потеря регрессии

Среднеквадратическая ошибка/среднеквадратичная потеря/потеря L2:

Среднеквадратическая ошибка (MSE) — это широко используемая и простая функция потерь для задач регрессии. Он измеряет среднеквадратичную разницу между прогнозируемыми значениями и фактическими значениями в наборе данных. Формула для MSE выглядит следующим образом:

Преимущества:

  1. Легко интерпретировать: MSE обеспечивает четкую меру среднеквадратичной разницы между прогнозами и фактическими значениями, что упрощает понимание и сравнение.
  2. Всегда дифференциальный: операция возведения в квадрат гарантирует, что функция потерь всегда будет дифференцируемой, что важно для оптимизации параметров модели с использованием методов на основе градиента.
  3. Только один локальный минимум: MSE имеет уникальный глобальный минимум, что упрощает обучение модели и сходимость к оптимальному решению.

Недостатки:

  1. Единица ошибки в квадрате: единица ошибки в MSE находится в квадрате, что может быть не интуитивно понятным для интерпретации в реальных сценариях. Это может привести к трудностям в понимании величины ошибки.
  2. Неустойчив к выбросам: MSE придает большое значение большим ошибкам из-за операции возведения в квадрат, что делает его чувствительным к выбросам в наборе данных. Выбросы могут непропорционально повлиять на потери и повлиять на производительность модели.

Примечание. В задачах регрессии обычно используется линейная функция активации в выходном нейроне, чтобы напрямую прогнозировать непрерывную целевую переменную.

Средняя абсолютная ошибка/потери L1:

Средняя абсолютная ошибка (MAE) — еще одна часто используемая функция потерь для задач регрессии. Он измеряет среднюю абсолютную разницу между прогнозируемыми значениями и фактическими значениями в наборе данных. Формула для МАЭ выглядит следующим образом:

Преимущества:

  1. Интуитивно понятный и простой для понимания: MAE обеспечивает прямое измерение средней абсолютной разницы между прогнозируемыми и фактическими значениями, что упрощает интерпретацию.
  2. Единица измерения ошибки такая же, как и в выходном столбце. В отличие от MSE, единица измерения ошибки в MAE совпадает с выходной переменной, что позволяет более интуитивно интерпретировать ошибку.
  3. Устойчивость к выбросам: MAE менее чувствителен к выбросам в наборе данных по сравнению с MSE. Он присваивает всем ошибкам одинаковую важность, что делает его более надежным при наличии экстремальных значений.

Недостатки:

  1. График не дифференциальный: MAE не дифференцируем в нуле, что создает проблемы при непосредственном применении оптимизации градиентного спуска. Однако для решения этой проблемы можно использовать субградиентные методы расчета.

Примечание. В задачах регрессии линейная функция активации обычно используется в выходном нейроне для прямого прогнозирования непрерывной целевой переменной.

Хубер Лосс:

Потеря Хьюбера — это надежная функция потерь, которая обычно используется в задачах регрессии, особенно при работе с наборами данных, содержащими выбросы. Он обеспечивает баланс между функциями потерь средней абсолютной ошибки (MAE) и средней квадратичной ошибки (MSE).

Преимущества:

  1. Устойчивость к выбросам: потеря Хубера менее чувствительна к выбросам по сравнению с квадратичной ошибкой потерь (MSE). Это эффективно снижает влияние экстремальных значений на общий расчет потерь, что делает его более подходящим для наборов данных с выбросами.
  2. Сбалансированный подход: потеря Хубера сочетает в себе характеристики как MAE, так и MSE. Он ведет себя как MSE для небольших ошибок, где он более строго наказывает большие ошибки. Однако при больших ошибках он переходит в режим MAE, где ошибки штрафуются линейно. Этот баланс позволяет модели эффективно обрабатывать как мелкие, так и крупные ошибки.

Недостатки:

  1. Сложность: потеря Хубера вводит дополнительный гиперпараметр, называемый δ, который определяет точку, в которой функция потерь переходит от квадратичной к линейной. Оптимизация этого гиперпараметра требует дополнительных требований к обучению и может увеличить сложность модели.

Потеря классификации

Двоичная перекрестная энтропия (потери журнала):

Двоичная перекрестная энтропия, также известная как Log Loss, является часто используемой функцией потерь в задачах бинарной классификации, таких как предсказание того, является ли электронное письмо спамом или нет, или есть ли у пациента определенное заболевание или нет. Он измеряет несходство между предсказанными вероятностями и истинными бинарными метками.

Преимущество:

  1. Интуитивная интерпретация: Binary Cross Entropy легко интерпретируется. Он количественно определяет разницу между предсказанными вероятностями и фактическими двоичными метками. Более низкое значение указывает на лучшее соответствие между предсказанными и истинными значениями.

Недостаток:

  1. Чувствительность к дисбалансу классов: потеря двоичной перекрестной энтропии может быть чувствительна к дисбалансу классов, когда один класс доминирует в наборе данных. В таких случаях модель может отдавать предпочтение классу большинства, что приводит к необъективным прогнозам.

Формула:

Потеря бинарной перекрестной энтропии рассчитывается по формуле:

Здесь y представляет собой истинную двоичную метку (0 или 1), ŷ представляет прогнозируемую вероятность, а log представляет собой натуральный логарифм.

Примечание. В классификации последнего нейрона используется сигмовидная функция активации.

Категорная перекрестная энтропия:

Категориальная перекрестная энтропия — это функция потерь, обычно используемая в задачах мультиклассовой классификации. Он специально разработан для обработки сценариев, в которых необходимо прогнозировать более двух классов.

Преимущество:

  1. Мультиклассовая классификация: Категориальная перекрестная энтропия подходит для задач с несколькими классами. Это позволяет модели назначать вероятности каждому классу и измерять несходство между предсказанными вероятностями и истинными метками классов.

Недостаток:

  1. Вычислительная сложность: вычисление категориальной перекрестной энтропии включает в себя суммирование по всем классам, что может быть дорогостоящим в вычислительном отношении, особенно при работе с большим количеством классов.

Формула:

Функция потерь для категориальной перекрестной энтропии рассчитывается как отрицательная сумма фактического значения, умноженного на логарифм прогнозируемого значения для каждого класса.

Здесь y представляет истинную метку класса (горячее кодирование), ŷ представляет прогнозируемую вероятность для каждого класса, а log представляет собой натуральный логарифм.

где

  • к - классы,
  • у = фактическое значение
  • yhat — предсказание нейронной сети

Примечание. В многоклассовой классификации на последнем нейроне используйте функцию активации softmax.

Когда использовать категориальную перекрестную энтропию и разреженную категориальную перекрестную энтропию:

  1. Категориальная перекрестная энтропия:
  • Используйте категориальную перекрестную энтропию, когда целевой столбец имеет однократное кодирование, что означает, что каждый класс представлен двоичным вектором, в котором активен только один элемент (1), а остальные неактивны (0).
  • Например, если у вас есть три класса A, B и C, представление с горячим кодированием будет [1, 0, 0], [0, 1, 0] и [0, 0, 1] соответственно.
  • Категориальная перекрестная энтропия уместна, когда модель выводит распределение вероятностей по нескольким классам, а истинные метки классов представлены в формате прямого кодирования.

2. Разреженная категориальная перекрестная энтропия:

  • Используйте разреженную категориальную перекрестную энтропию, когда целевой столбец имеет числовое кодирование, где каждый класс представлен уникальным целочисленным значением.
  • Например, если у вас есть три класса A, B и C, числовое кодирование может быть 1, 2 и 3 соответственно.
  • Разреженная категориальная перекрестная энтропия подходит, когда модель выводит распределение вероятностей по нескольким классам, а истинные метки классов представлены в виде целых чисел, а не векторов с горячим кодированием.

Выбор между категориальной перекрестной энтропией и разреженной категориальной перекрестной энтропией зависит от того, как закодирован целевой столбец. Если это горячее кодирование, используйте категориальную перекрестную энтропию. Если он закодирован в числовом виде, используйте разреженную категориальную перекрестную энтропию.