Потеря журнала, также известная как кросс-энтропийная потеря, является часто используемой функцией потерь в машинном обучении и глубоком обучении. Он измеряет несходство между истинной меткой и прогнозируемым распределением вероятностей по всем возможным классам. Цель модели машинного обучения — свести к минимуму потери журнала, а это означает, что она направлена ​​на получение прогнозов, максимально приближенных к истинным меткам.

Функция потерь журнала определяется следующим образом:

Где N — количество образцов, yᵢ — истинная метка (0 или 1) для образца i, а pᵢ — прогнозируемая вероятность положительного класса (например, вероятность изображения кошки) для образца i.

Маленькая история

Впервые он был представлен математиком Клодом Шенноном в его статье 1948 года «Математическая теория коммуникации». В этой статье Шеннон определил энтропию как меру неопределенности в распределении вероятностей, а кросс-энтропию — как меру несходства между двумя распределениями вероятностей.

В контексте машинного обучения и глубокого обучения логарифмическая потеря позже была адаптирована как функция потерь для оценки качества прогнозов модели. Журнал потерь измеряет несоответствие между истинной меткой и прогнозируемым распределением вероятностей по всем возможным классам. Минимизируя потери журнала, модель машинного обучения можно обучить для получения прогнозов, максимально приближенных к истинным меткам.

Свойства потери журнала

Функция потери журнала имеет несколько желательных свойств, которые делают ее подходящим выбором для решения многих задач машинного обучения. Например:

  • Логарифмическая потеря является непрерывной и дифференцируемой функцией, что делает ее пригодной для оптимизации с использованием алгоритмов на основе градиента, таких как стохастический градиентный спуск.
  • Потери журнала более жестко наказывают модели за прогнозы, которые далеки от истинной метки. Например, если истинная метка равна 1, а прогнозируемая вероятность равна 0,9, логарифмическая потеря меньше, чем если бы прогнозируемая вероятность равнялась 0,1. Это имеет смысл, так как прогноз, который ближе к истинной метке, считается более точным.
  • Логарифмическая потеря симметрична относительно истинной метки и прогнозируемой вероятности. Это означает, что если вы поменяете местами истинную метку и прогнозируемую вероятность, потери журнала останутся прежними. Это важно, так как гарантирует, что процесс оптимизации не будет смещен в сторону какого-либо конкретного класса.

Использование Log-Loss

Потеря журнала используется в различных задачах машинного обучения, включая, помимо прочего:

  • Двоичная классификация. В этой задаче цель состоит в том, чтобы предсказать, принадлежит ли пример к одному из двух классов, например «спам» или «не спам». Потеря журнала является подходящим выбором для этой задачи, поскольку она может измерять несоответствие между истинной меткой (0 или 1) и прогнозируемой вероятностью положительного класса (например, вероятность того, что электронное письмо является спамом).
  • Классификация нескольких классов: в этой задаче цель состоит в том, чтобы предсказать один из нескольких классов, таких как «собака», «кошка», «птица» и т. д. Потеря журнала может быть распространена на эту задачу, преобразовав ее в мультикласс. потери журнала класса, которые представляют собой просто средние потери журнала по всем классам. Это гарантирует, что процесс оптимизации будет одинаково наказывать модели за неверные прогнозы любого класса.
  • Калибровка вероятности: в некоторых приложениях важно, чтобы прогнозируемые вероятности были хорошо откалиброваны, что означает, что они точно отражают неопределенность в прогнозе. Логарифмическую потерю можно использовать для оценки калибровки модели путем сравнения предсказанных вероятностей с истинными метками. Например, если прогнозируемая вероятность положительного примера равна 0,9, разумно ожидать, что около 90% таких примеров действительно будут положительными.

Важно отметить, что потеря журнала — не единственная функция потерь, которую можно использовать в машинном и глубоком обучении. В некоторых случаях другие функции потерь, такие как среднеквадратическая ошибка или потеря шарнира, могут быть более подходящими, в зависимости от конкретных требований задачи и характера данных.

В заключение, логарифмическая потеря является широко используемой функцией потерь в машинном и глубоком обучении из-за ее желаемых свойств и способности измерять несходство между истинной меткой и прогнозируемым распределением вероятностей по всем возможным классам.

В мире чисел и вероятностей, Где алгоритмы стремятся к точности, Меру искали, чтобы указать путь, В погоне за правдой, день и ночь.

И таким образом, потеря журнала была рождена необходимостью, Инструментом, чтобы судить о предсказанном семени, Сравнивая правду с мечтами моделей, С нежной грацией и благородными темами.

Он взвешивает разницу, малую или большую, Между тем, что есть, и тем, что есть судьба, И в своем расчете находит изъян, В догадках моделей, помогая им расти.

С каждой итерацией он улучшается, Приближая прогнозы к канавке, Пока видение модели не станет верным, И потеря журнала тоже всего лишь воспоминание.

Так пусть эта мера направляет вашу руку, В поисках великих предсказаний, И пусть ваши модели учатся и растут С помощью потери бревна, мягкого свечения.

Если вам понравилось мое объяснение, пожалуйста, похлопайте этой статье 👏 и поделитесь ею со своими друзьями и приятелями по учебе 🫂

контакт: https://atharv4git.github.io/webpage/