Энтропия, кросс-энтропия, лог-потери и интуиция, лежащая в основе

В 1948 году Клод Шеннон представил теорию информации в своей 55-страничной статье Математическая теория коммуникации. Теория информации - это то место, где мы начинаем обсуждение, которое приведет нас к потере журнала, которая является широко используемой функцией затрат в моделях машинного обучения и глубокого обучения.

Цель теории информации - эффективно доставлять сообщения от отправителя к получателю. В эпоху цифровых технологий информация представлена ​​битами 0 и 1. Согласно Шеннону, один бит информации, посланный получателю, означает уменьшение неопределенности получателя в два раза. Таким образом, информация пропорциональна уменьшению неопределенности.

Рассмотрим случай подбрасывания справедливой монеты. Вероятность выпадения орлов стороной вверх, P (Головы), составляет 0,5. После того, как вам (получателю) сообщают, что орла подняты, P (голов) становится 1. Таким образом, вам отправляется 1 бит информации, и неопределенность уменьшается в два раза. Объем информации, которую мы получаем, - это уменьшение неопределенности, которая обратно пропорциональна вероятности событий.

Количество битов информации можно легко вычислить, взяв логарифм (основание 2) уменьшения неопределенности.

Давайте рассмотрим немного более сложный случай. Двое ваших друзей идут в магазин, чтобы купить определенную футболку, доступную в четырех разных цветах.

Ваша подруга Джулия немного нерешительна и говорит вам, что может выбрать любой цвет. Другой ваш друг Джон говорит вам, что ему нравится синий цвет, и он, скорее всего, купит синюю футболку.

У вас определенно больше неуверенности в решении Джулии, чем у Джона. Энтропия - это показатель неопределенности. Если быть более точным, это средний объем информации, полученный из выборок в рамках распределения вероятностей.

В следующей таблице показано распределение вероятностей событий, когда Джулия и Джон покупают футболку.

Начнем с Юлии. Если Джулия выберет синий, неопределенность уменьшится на 4 (1 / 0,25). Он равен 2 битам в логарифмической базе 2 (базовая единица энтропии - бит). Таким образом, в случае с синим цветом мы получаем 2 бита. Поскольку энтропия - это среднее количество информации об образцах, мы повторяем те же вычисления для других цветов. Они приводят к одинаковому количеству битов, поскольку вероятности одинаковы. Для Джулии энтропия рассчитывается следующим образом:

Для Джона шаги те же, но результат другой.

Энтропия больше в случае с Джулией, поэтому у нас больше неуверенности в отношении решения Джулии, которого мы ожидали вначале.

Мы рассчитали энтропию. Пора ввести формулу:

Примечание. Мы не включали знак минус в наши вычисления, потому что он был удален путем вычисления обратной вероятности (1 / p).

У нас есть два события с 4 исходами. Первое событие - это то, что Джулия покупает футболку, второе событие - Джон покупает футболку. Энтропия составляет 2 бита и 1,19 бита соответственно. Другими словами, в среднем мы получаем 2 бита информации о первом событии и 1,19 бита информации о втором.

Мы продвигаемся к концепциям, используемым в машинном обучении. Следующая тема - это кросс-энтропия, которая представляет собой среднюю длину сообщения.

Цвет, который выбирает ваш друг, передается вам в цифровом виде (то есть битами). В следующей таблице представлены две разные кодировки, используемые для передачи информации о выборе Джона.

В случае 1 для каждого цвета используются два бита. Таким образом, средняя длина сообщения равна 2.

Эта кодировка приемлема для Джулии, но не для Джона. Энтропия распределения вероятностей выбора Джона составляет 1,19 бита, поэтому использование в среднем 2 бита для отправки информации о его выборе не является оптимальным способом.

В случае 2 кросс-энтропия оказывается равной 1,3 бита. Это по-прежнему больше 1,19, но определенно лучше, чем в случае 1.

Но откуда взялось слово «крест»? При вычислении кросс-энтропии мы фактически сравниваем два разных распределения вероятностей. Один - это фактическое распределение вероятностей переменной, а другой - прогнозируемое с выбором битов.

Перекрестная энтропия может быть выражена как функция истинного и предсказанного распределений следующим образом:

Если вы посмотрите на вычисления, которые мы сделали, чтобы найти кросс-энтропию, вы заметите, что шаги пересекаются с этой формулой.

Теперь мы можем начать обсуждение того, как кросс-энтропия используется в области машинного обучения. Кросс-энтропийная потеря (т.е. потеря журнала) - это широко используемая функция затрат для моделей машинного обучения и глубокого обучения.

Кросс-энтропия количественно определяет сравнение двух распределений вероятностей. В задачах контролируемого обучения у нас есть целевая переменная, которую мы пытаемся предсказать. Фактическое распределение целевой переменной и наши прогнозы сравниваются с помощью кросс-энтропии. Результатом является потеря кросс-энтропии, также известная как потеря журнала.

Есть небольшая разница между кросс-энтропией и потерями кросс-энтропии. При расчете потерь обычно используется натуральный логарифм вместо логарифмической базы 2.

Потеря кросс-энтропии:

Приведем пример. У нас есть задача классификации с 4 классами. Прогноз нашей модели для конкретных наблюдений выглядит следующим образом:

Поскольку мы знаем истинное распределение вероятностей, оно составляет 100% для истинного класса и ноль для всех остальных. Согласно нашей модели, это наблюдение относится к классу 1 с вероятностью 80%. Потери перекрестной энтропии для этого конкретного наблюдения рассчитываются следующим образом:

Поскольку истинная вероятность равна нулю для всех классов, кроме фактического класса, только предсказанная вероятность фактического класса вносит вклад в потерю кросс-энтропии.

Имейте в виду, что это потеря по конкретному наблюдению. Потери в обучающем или тестовом наборе - это среднее значение перекрестных энтропий всех наблюдений в этом наборе.

Почему потеря журнала?

Вы можете задаться вопросом, почему потеря журнала используется вместо точности классификации в качестве функции стоимости.

В следующей таблице показаны прогнозы двух разных моделей на относительно небольшом наборе, состоящем из 5 наблюдений.

Обе модели правильно классифицировали 4 наблюдения из 5. Таким образом, с точки зрения точности классификации, эти модели имеют одинаковую производительность. Однако вероятности показывают, что Модель 1 более уверена в прогнозах. Таким образом, в целом он, вероятно, будет работать лучше.

Потери журнала (т.е. потеря кросс-энтропии) обеспечивают более надежную и точную оценку моделей классификации.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.

Ссылки