Потеря журнала, также известная как кросс-энтропийная потеря, является часто используемой функцией потерь в машинном обучении и глубоком обучении. Он измеряет несходство между истинной меткой и прогнозируемым распределением вероятностей по всем возможным классам. Цель модели машинного обучения — свести к минимуму потери журнала, а это означает, что она направлена на получение прогнозов, максимально приближенных к истинным меткам.
Функция потерь журнала определяется следующим образом:
Где N — количество образцов, yᵢ — истинная метка (0 или 1) для образца i, а pᵢ — прогнозируемая вероятность положительного класса (например, вероятность изображения кошки) для образца i.
Маленькая история
Впервые он был представлен математиком Клодом Шенноном в его статье 1948 года «Математическая теория коммуникации». В этой статье Шеннон определил энтропию как меру неопределенности в распределении вероятностей, а кросс-энтропию — как меру несходства между двумя распределениями вероятностей.
В контексте машинного обучения и глубокого обучения логарифмическая потеря позже была адаптирована как функция потерь для оценки качества прогнозов модели. Журнал потерь измеряет несоответствие между истинной меткой и прогнозируемым распределением вероятностей по всем возможным классам. Минимизируя потери журнала, модель машинного обучения можно обучить для получения прогнозов, максимально приближенных к истинным меткам.
Свойства потери журнала
Функция потери журнала имеет несколько желательных свойств, которые делают ее подходящим выбором для решения многих задач машинного обучения. Например:
- Логарифмическая потеря является непрерывной и дифференцируемой функцией, что делает ее пригодной для оптимизации с использованием алгоритмов на основе градиента, таких как стохастический градиентный спуск.
- Потери журнала более жестко наказывают модели за прогнозы, которые далеки от истинной метки. Например, если истинная метка равна 1, а прогнозируемая вероятность равна 0,9, логарифмическая потеря меньше, чем если бы прогнозируемая вероятность равнялась 0,1. Это имеет смысл, так как прогноз, который ближе к истинной метке, считается более точным.
- Логарифмическая потеря симметрична относительно истинной метки и прогнозируемой вероятности. Это означает, что если вы поменяете местами истинную метку и прогнозируемую вероятность, потери журнала останутся прежними. Это важно, так как гарантирует, что процесс оптимизации не будет смещен в сторону какого-либо конкретного класса.
Использование Log-Loss
Потеря журнала используется в различных задачах машинного обучения, включая, помимо прочего:
- Двоичная классификация. В этой задаче цель состоит в том, чтобы предсказать, принадлежит ли пример к одному из двух классов, например «спам» или «не спам». Потеря журнала является подходящим выбором для этой задачи, поскольку она может измерять несоответствие между истинной меткой (0 или 1) и прогнозируемой вероятностью положительного класса (например, вероятность того, что электронное письмо является спамом).
- Классификация нескольких классов: в этой задаче цель состоит в том, чтобы предсказать один из нескольких классов, таких как «собака», «кошка», «птица» и т. д. Потеря журнала может быть распространена на эту задачу, преобразовав ее в мультикласс. потери журнала класса, которые представляют собой просто средние потери журнала по всем классам. Это гарантирует, что процесс оптимизации будет одинаково наказывать модели за неверные прогнозы любого класса.
- Калибровка вероятности: в некоторых приложениях важно, чтобы прогнозируемые вероятности были хорошо откалиброваны, что означает, что они точно отражают неопределенность в прогнозе. Логарифмическую потерю можно использовать для оценки калибровки модели путем сравнения предсказанных вероятностей с истинными метками. Например, если прогнозируемая вероятность положительного примера равна 0,9, разумно ожидать, что около 90% таких примеров действительно будут положительными.
Важно отметить, что потеря журнала — не единственная функция потерь, которую можно использовать в машинном и глубоком обучении. В некоторых случаях другие функции потерь, такие как среднеквадратическая ошибка или потеря шарнира, могут быть более подходящими, в зависимости от конкретных требований задачи и характера данных.
В заключение, логарифмическая потеря является широко используемой функцией потерь в машинном и глубоком обучении из-за ее желаемых свойств и способности измерять несходство между истинной меткой и прогнозируемым распределением вероятностей по всем возможным классам.
В мире чисел и вероятностей, Где алгоритмы стремятся к точности, Меру искали, чтобы указать путь, В погоне за правдой, день и ночь.
И таким образом, потеря журнала была рождена необходимостью, Инструментом, чтобы судить о предсказанном семени, Сравнивая правду с мечтами моделей, С нежной грацией и благородными темами.
Он взвешивает разницу, малую или большую, Между тем, что есть, и тем, что есть судьба, И в своем расчете находит изъян, В догадках моделей, помогая им расти.
С каждой итерацией он улучшается, Приближая прогнозы к канавке, Пока видение модели не станет верным, И потеря журнала тоже всего лишь воспоминание.
Так пусть эта мера направляет вашу руку, В поисках великих предсказаний, И пусть ваши модели учатся и растут С помощью потери бревна, мягкого свечения.
Если вам понравилось мое объяснение, пожалуйста, похлопайте этой статье 👏 и поделитесь ею со своими друзьями и приятелями по учебе 🫂