Интуитивно понятный обзор трех важных взаимосвязанных концепций машинного обучения: информация, энтропия и дивергенция Кульбака-Лейблера.

Введение: как измерить распределения?

Прежде чем мы углубимся в то, что такое энтропия, информация и расхождение KL, мы должны сначала понять необходимость этих терминов и какие проблемы это решает.

В нашем курсе базовой статистики / математики мы встретили множество различных распределений. Некоторые из них, а именно: Гауссов, Бернулли, Бета и т. Д. Функция плотности вероятности (p.d.f.) Или функция массы вероятности (p.m.f.) Различаются от одного распределения к другому. Мы говорим, что оба распределения равны тогда и только тогда. оба имеют одинаковые значения p.d.f или p.m.f. Теперь возникает вопрос: если два распределения вероятностей различны, как измерить разницу между ними? Рассмотрим следующий пример:

У нас есть 3 дистрибутива. Мы можем качественно сказать, что распределение 2 больше похоже на распределение 1, чем распределение 3 на распределение 1. Это всего лишь качественная оценка, и мы все еще не можем ответить: «Насколько похоже / отличается одно распределение от другого?». Здесь мы ищем числовую величину, которая может определить, насколько одно распределение отличается друг от друга.

Оказывается, есть несколько способов узнать, чем один дистрибутив отличается от другого. Некоторые читатели могут подумать: «Как лучше всего измерить разницу»? Оказывается, не существует установленного «лучшего» метода, и в конечном итоге все сводится к проблеме, в которой он используется. В этой статье мы исследуем один из этих способов: Дивергенция Кульбака-Лейблиера. Прежде чем мы перейдем к тому, что представляет собой этот странно звучащий термин, нам необходимо понять два основных термина: Энтропия и Информация.

Энтропия распределения

Термин энтропия использовался в физических науках задолго до того, как Шеннон применил его для сжатия. Определение энтропии в физической системе выглядит следующим образом:

Энтропия - это мера случайности системы. Чем случайнее система, тем больше энтропия системы.

Точно так же по вероятности энтропия распределения увеличивается с увеличением случайности. Чтобы лучше понять это, давайте рассмотрим пример:

Есть две монеты:

Монета 1: Смещенная монета с вероятностью выпадения орла = 0,9

Монета 2: беспристрастная монета (с вероятностью выпадения головы = 0,5)

Результат подбрасывания монеты 1 намного более предсказуем, чем случай подбрасывания монеты 2. Иными словами: Результат подбрасывания монеты 2 менее случайен, чем результат подбрасывания монеты 1. Поскольку подбрасывание монеты 2 дает более случайный результат, распределение, связанное с подбрасыванием монеты 2, имеет большую энтропию.

Чтобы лучше понять энтропию, нам нужно понимать информационное содержание.

Информационное содержание мероприятия

Информацию можно рассматривать как степень неожиданности события. Если нам скажут, что только что произошло крайне маловероятное (более интересное) событие, мы получим больше информации, чем если бы нам сказали, что какое-то весьма вероятное событие только что произошло, и если бы мы знали, что событие обязательно произойдет, мы бы не получать информации.

Информация о событии зависит от вероятности события. Если вероятность события больше, то есть вероятность его возникновения выше, передаваемая информация будет низкой. Связать информацию со случайностью может показаться немного абсурдным, поэтому давайте рассмотрим простой пример, который поможет нам лучше понять:

Есть два события:

Событие 1: «Солнце встает на востоке».

Событие 2: «Компания XYZ резко увеличила стоимость акций».

Событие 1 - универсальная правда. Читатель совершенно уверен, что событие произойдет, и рассказывать читателю то, что он уже ожидает / знает, не имеет смысла. Таким образом, событие 1 имеет очень низкую / нулевую информацию. С другой стороны, событие 2 - маловероятное событие, и его появление может удивить некоторых (особенно тех, кто ожидал падения цены). Так что это мероприятие более информативно.

Примечание. Информация определяется для события. Энтропия определяется для распределения.

Энтропия с точки зрения информации

Мы определили информацию для конкретного события в распределении. Поскольку информация является мерой случайности события, знание обо всех событиях распределения дает нам представление о случайности распределения. Следовательно, энтропия также может быть определена как ожидаемое информационное содержание распределения.

Теперь посмотрим на математическое выражение информации:

Мы рассматриваем дискретную переменную x, которая может принимать n различных значений.

Вероятность этих значений определяется p (x).

Информация, предоставленная для наблюдения за одним событием, представлена ​​как h (x).

Форму h (·) можно найти, отметив, что если у нас есть два события x и y, которые не связаны между собой, то получение информации от наблюдения за ними обоими должно быть суммой информации, полученной от каждого из них по отдельности, так что ч (х, у) = ч (х) + ч (у). Два несвязанных события будут статистически независимыми, и поэтому p (x, y) = p (x) p (y). Из этих двух соотношений легко показать, что h (x) должно быть задано логарифмом p (x)

Энтропию распределения можно записать как:

Возьмем пример с игральными костями,

Этот результат можно распространить на непрерывные распределения:

Дивергенция Кульбака-Лейблье

В машинном обучении мы сталкиваемся со многими проблемами, когда даны данные с определенным целевым распределением, и мы должны обучить модель так, чтобы наша модель аппроксимировала аналогичное распределение на основе данных.

Вероятность целевого / фактического распределения: p (x) и вероятность смоделированного распределения: q (x). Мы замечаем, что хотя распределение предсказывается равным q (x), исходное распределение остается p (x). Следовательно, энтропия q (x) относительно p (x) определяется выражением:

Это также известно как относительная энтропия q (x) по отношению к p (x). Теперь, чтобы узнать разницу относительной энтропии и фактической энтропии:

Это называется KL-расходимостью q (x) относительно p (x). Мы можем видеть, что это количественный термин для ответа на вопрос, насколько дистрибутив с одинаковой поддержкой отличается от других.

Примечание. Дивергенция Кульбака-Лейблие асимметрична, т.е. обычно KL (p (x) || q (x)) не равно KL (q (x) || p ( Икс)).