Энтропия — это мера неожиданности или неопределенности, связанная со случайной величиной. В более общем смысле он определяет количество информации о событии или случайной величине в целом. Для дискретной случайной величины X с функцией массы вероятности (pmf) p (X = x) = p (x) энтропия формально определяется как:

Лучший способ выразить приведенное выше уравнение состоит в том, что энтропия — это средневзвешенное значение информации (логарифмический член), связанной с отдельными результатами этой случайной величины. В следующем разделе мы обсудим, почему термины журнала называются «информация».

Важно отметить, что если логарифм в приведенном выше уравнении основан на 2, то единицами измерения энтропии являются биты. Если в журнале используется база e, то единицами измерения являются nats.

Также важно отметить, что энтропия является функцией распределения вероятностей случайной величины и не зависит от фактических значений этой случайной величины.

Данное математическое уравнение также можно записать в виде:

Преимущество записи в такой форме состоит в том, что легче понять следующее следствие:

Энтропия - неотрицательная величина. Для любой случайной величины X

это потому, что 0 ≤ p (x) ≤ 1, и поэтому 1 / p (x) является термином ≥ 1, и поэтому log (1 / p (x)) никогда не бывает отрицательным числом.

Здесь важно отметить, что энтропия любой случайной величины максимальна, когда все результаты в выборочном пространстве случайной величины равновероятны. Точно так же, если есть какая-либо случайная величина, которая принимает значение с максимальной точностью, т. е. p = 1 (в этом случае это не случайная величина), то энтропия равна 0. Поскольку нет неопределенности или хаоса, энтропия равна 0. Рассмотрим несколько примеров:

Рассмотрим случайную величину X с тремя возможными исходами {a,b,c}, имеющими вероятности {1/2, 1/4, 1/4}. Тогда энтропия для X равна:

С другой стороны, если X имеет равномерное распределение, то энтропия равна:

Мы можем построить кривую энтропии в зависимости от вероятности любых двух результатов (пропустив последующий третий), чтобы визуализировать, как максимизируется энтропия, когда все результаты этой случайной величины равновероятны.
Для визуализации того, как энтропия зависит от распределения вероятностей, для удобства вместо этого мы рассмотрим случай подбрасывания монеты (бернуллиевская случайная величина) с исходами {H, T}, имеющими вероятности {p, 1-p}. Кривая H(X) в зависимости от p показана ниже.

Более глубокое понимание «информации»

Когда мы заявили выше, что энтропия случайной величины представляет собой средневзвешенное значение информации (связанной с ее результатами), это подразумевает, что log(p(x)) является информационным термином, а p(x) является весом.
Какое отношение имеет информация к логарифму?

Предположим, два человека, Алекс и Боб. Алекс случайно выбирает число в диапазоне от 0 до 31, и Боб должен угадать, какое число выбрал Алекс? Боб может начать угадывать каждое число от 0 до 31 одно за другим. Максимальное количество вопросов, которые может задать Боб, равно 32. Какое минимальное количество вопросов должен задать Боб, чтобы все время правильно угадывать число? Лучше спросите, может ли Боб использовать эффективный способ задавать вопросы, чтобы минимизировать общее количество вопросов, необходимых для правильного угадывания числа.

Да, есть способ лучше! Если он спросит: «Число больше или равно 16?»

Таким образом, Боб получает ответ, какую половину поля 0–31 ему следует полностью исключить. Если он продолжит задавать этот вопрос, разделив каждую полученную клетку на две равные части и исключив одну из них, он сможет получить номер Алекса в 5 вопросах. Точно так же он может правильно угадать число в 6 вопросах, если диапазон от 0 до 63. Базовая математическая функция для определения этого количества — log2 (или логарифм по основанию 2). Обобщая, если Алекс выбирает любое число от 0 до n-1, Бобу нужно задать log2(n) вопросов, чтобы найти это число. Поймите, что все эти вопросы носят бинарный характер. Мы начинаем кодировать числа из диапазона 0–31 битами длины log2(32) = 5.

0: 00000
1: 00001
2: 00010
3: 00011
….
30: 11110
31: 11111

Независимо от того, какое число выбрал Алекс, среднее количество необходимых битов равно 5. В этом случае предполагается, что вероятность выбора всех чисел одинакова. Но что, если некоторые числа выпадут с большей вероятностью, чем другие? Будет ли у них одинаковое количество битов в коде (или битов информации)? Нет !
Рассмотрим первый случай, который мы представили, случайная величина X с 3 исходами {a, b, c}, имеющими вероятности {1/2, 1/4, 1/4}, тогда события X = 1/2 , X = 1/4, X = 1/4 будет иметь следующее количество битов (или битов информации):

Первый бинарный вопрос для Боба: "Выбрал ли Алекс?" Обратите внимание, что и "Да", и "Нет" имеют вероятность 0,5. Если ответ «Нет» (это уже один бит информации!),следующим бинарным вопросом для Боба будет «Алекс выбрал b?». Независимо от того, будет ли ответ «Да» или «Нет», мы попадем на число, выбранное Алисой. Средневзвешенная информация для этой случайной величины составляет 1,5 бита.
Теперь мы можем легко ее обобщить. Предположим, Алекс выбирает число xi с вероятностью pi в диапазоне:

Количество бинарных вопросов, которые Боб должен задать, чтобы правильно угадать число Алекса, равно -log2(pi).

Крайне важно помнить, что все задаваемые вопросы носят бинарный характер. Это также соответствует тому, как работают деревья решений!
Деревья решений математически оптимизированы IF-ELSE. Дерево решений является следствием серии бинарных вопросов. Порядок этих вопросов оптимизируется концепцией энтропии.

Я надеюсь, что эта статья упростит концепцию энтропии и поможет читателям лучше ее понять.