В области теории информации одним из фундаментальных понятий является измерение информации и неопределенности. Теория информации обеспечивает основу для количественной оценки и понимания количества информации, содержащейся в сообщении или наборе данных. Он имеет приложения в различных областях, включая статистику, машинное обучение и сжатие данных.

В основе теории информации лежит концепция энтропии, которая измеряет неопределенность или случайность в наборе данных. Энтропия позволяет нам количественно оценить ожидаемую ценность информации, содержащейся в сообщении. Он дает представление о среднем количестве «неожиданности» или «информации», которую мы получаем, когда узнаем результат случайной величины.

Однако одной энтропии может быть недостаточно, чтобы уловить различия между распределениями вероятностей или количество информации, полученной при переходе от одного распределения к другому. Именно здесь в игру вступает дивергенция Кульбака-Лейблера (КЛ).

Дивергенция KL, названная в честь Соломона Кульбака и Ричарда Лейблера, является мерой различия между двумя распределениями вероятностей. Он позволяет количественно определить, насколько одно распределение отличается от другого. KL Divergence часто используется в различных областях, включая теорию информации, статистику и машинное обучение, для сравнения и анализа вероятностных распределений.

В этой статье мы подробно рассмотрим концепцию дивергенции KL. Мы начнем с понимания основ теории информации, включая энтропию и концепцию содержания информации. Затем мы углубимся в определение и свойства KL-дивергенции и обсудим ее применение в различных областях. К концу этой статьи у вас будет четкое представление о дивергенции KL и ее значении для измерения разницы между вероятностными распределениями.

Итак, давайте отправимся в это путешествие в мир теории информации и KL Divergence и узнаем, как это может улучшить наше понимание данных и неопределенности.

Энтропия

Энтропия — это мера неопределенности или случайности в наборе данных. Это фундаментальное понятие в теории информации, и оно используется для количественной оценки ожидаемой ценности информации, содержащейся в сообщении.

Определение информационного содержания

Первым шагом в выводе формулы энтропии является определение понятия содержания информации. Информативность события обратно пропорциональна вероятности события. Мы можем определить информационное содержание I(x) события x с вероятностью P(x) следующим образом:

Здесь логарифм может быть по любому основанию, но обычно для теории информации используется основание 2 (что приводит к измерению информации в битах). Отрицательный знак гарантирует, что информационное содержание является положительным, поскольку логарифм вероятности (число от 0 до 1) является отрицательным.

Определение энтропии

Энтропия определяется как ожидаемое значение содержания информации. Другими словами, это среднее количество информации, которую мы ожидаем получить, когда становится известен результат случайной величины. Определена энтропия H(X) дискретной случайной величины X с функцией массы вероятности P(x). как ожидаемое значение информативности:

Здесь E[.] обозначает ожидаемое значение, а сумма вычисляется по всем возможным исходам x случайной величины X.

Подстановка информационного содержания в формулу энтропии

Теперь подставим формулу информативности из шага 1 в формулу энтропии из шага 2:

Это упрощает:

Это формула энтропии. Он говорит нам, что энтропия случайной величины представляет собой сумму по всем возможным исходам произведения вероятности каждого исхода и логарифма вероятности каждого исхода, при этом вся сумма умножается на -1.

Энтропия случайной величины — это мера среднего количества «неожиданности» или «информации», которую мы получаем, когда узнаем результат случайной величины. Он рассчитывается как математическое ожидание информативности каждого возможного исхода.

Использование логарифма в формуле информативности имеет несколько важных причин и следствий:

  1. Обратно пропорционально вероятности. Логарифм гарантирует, что содержание информации обратно пропорционально вероятности события. Редкие события (с низкой вероятностью) обладают высокой информативностью, а обычные события (с высокой вероятностью) имеют низкую информативность. Логарифмическая функция обладает этим свойством, поскольку логарифм числа от 0 до 1 является отрицательным числом. Отрицательное значение логарифма гарантирует, что информационное содержание является положительным числом, большим для редких событий и маленьким для обычных событий.
  2. Аддитивность независимых событий: логарифм делает информационное содержание независимых событий аддитивным. Если события A и B независимы, информационное содержание обоих происходящих событий равно I(A и B) = I(A) + I(B). Это свойство полезно в теории информации.
  3. Количественная неожиданность. Логарифм дает хорошую интерпретацию с точки зрения «неожиданности». Менее вероятные события более «удивительны», и логарифм резко возрастает по мере уменьшения вероятности, отражая эту возросшую неожиданность.

Логарифм в формуле информационного содержания помогает создать меру, которая соответствует нашему интуитивному пониманию информации: она высока для редких, удивительных событий и низка для обычных, неудивительных событий, а аддитивна для независимых событий.

Пример

Рассмотрим честный бросок монеты. У монеты два исхода: орел (H) и решка (T), каждый с вероятностью 0,5. Мы можем вычислить энтропию этой системы следующим образом:

Сначала рассчитаем информативность каждого исхода:

Затем вычисляем энтропию системы:

Итак, энтропия правильного подбрасывания монеты составляет 1 бит, а это означает, что каждый подбрасывание монеты дает 1 бит информации.

Теперь рассмотрим необъективную монету, где вероятность выпадения орла равна 0,9, а решки — 0,1. Энтропия этой системы будет равна:

Энтропия ниже для предвзятого подбрасывания монеты, потому что результат менее неопределенный.

В данном примере у нас есть два сценария: правильное подбрасывание монеты и предвзятое подбрасывание монеты.

  1. В случае честной монеты вероятность выпадения орла (H) или решки (T) одинакова, 0,5. Это означает, что каждый исход равновероятен, и, таким образом, неопределенность или случайность максимальны. Вот почему энтропия, обозначаемая как H(X), равна 1 биту. При каждом подбрасывании монеты вы получаете 1 бит информации, потому что до подбрасывания вы совершенно не уверены в результате.
  2. В случае предвзятой монеты вероятность выпадения орла составляет 0,9, а решки – 0,1. Это означает, что выпадение орла гораздо более вероятно, чем выпадение решки. Поскольку один результат (орел) гораздо более вероятен, в жеребьевке меньше неопределенности или случайности. Вы часто можете предсказать результат (вероятно, это решка). Вот почему энтропия H(X) ниже для смещенной монеты (приблизительно 0,469 бит). Результат менее неопределенный, поэтому каждый бросок монеты дает менее 1 бита информации.

Итак, когда в утверждении говорится: "Энтропия ниже при подбрасывании монеты со смещением, потому что результат менее неопределенный", это означает, что, поскольку мы можем более точно предсказать результат подбрасывания (из-за смещения), существует меньше новой информации, предоставляемой каждым броском, и, следовательно, энтропия (мера этой новой информации или неопределенности) ниже.

результаты энтропии действительно ограничены. В контексте двоичной системы, такой как подбрасывание монеты, где есть только два возможных результата (орел или решка), энтропия ограничена между 0 и 1 битом.

Энтропия равна 0, когда результат определен. Например, если у вас есть монета, которая всегда падает орлом, неопределенности нет, поэтому энтропия равна 0.

Энтропия равна 1 биту, когда исходы равновероятны, как в случае честной монеты. Это максимальная энтропия для двоичной системы, потому что существует максимальная неопределенность — вы не можете предсказать, выпадет ли при следующем броске орел или решка.

Итак, когда мы говорим, что энтропия правильного подбрасывания монеты составляет 1 бит, это означает, что неопределенность имеет максимально возможное значение для этой системы. Точно так же, когда мы говорим, что энтропия необъективного подбрасывания монеты составляет приблизительно 0,469 бита, это означает, что неопределенность составляет менее половины того, что могло бы быть в самом неопределенном (или случайном) случае.

В целом, для системы с большим количеством возможных результатов максимальная энтропия будет выше. Например, для правильного шестигранного игрального кубика максимальная энтропия будет log2(6) ≈ 2,585 бит.

В следующей части мы обсудим, почему одной энтропии может быть недостаточно для улавливания различий между распределениями вероятностей или количества информации, полученной при переходе от одного распределения к другому.

Энтропия — это мера неопределенности или случайности в пределах одного распределения вероятностей. Он не учитывает конкретные значения, которые может принимать случайная величина, а только их вероятности. Следовательно, два разных распределения с одной и той же энтропией могут сильно отличаться по своим фактическим значениям.

Более того, энтропия не измеряет разницу между двумя распределениями вероятностей. Например, если у нас есть два разных распределения по одному и тому же набору событий, энтропия не говорит нам, сколько информации мы получаем или теряем при переходе от одного распределения к другому.

Чтобы измерить разницу между двумя распределениями вероятностей, нам нужна другая концепция, такая как дивергенция Кульбака-Лейблера (KL). Дивергенция KL измеряет, насколько одно распределение вероятностей отличается от второго, ожидаемого распределения вероятностей. Он часто используется в машинном обучении для измерения потери информации при аппроксимации одного распределения другим.

хотя энтропия является мощным инструментом для количественной оценки неопределенности в пределах одного распределения, она не отражает различий между распределениями или информации, полученной при переходе от одного распределения к другому. Для этого нам нужны другие инструменты, такие как дивергенция KL.

Пожалуйста, не стесняйтесь выражать свою поддержку, аплодируя как можно чаще (Вы можете аплодировать до 50 раз за сообщение). Ваши аплодисменты много значат и помогают распространять информацию дальше. Спасибо за щедрые аплодисменты!