В предыдущей части мы рассмотрим энтропию в ретроспективе энергии, а в этой части мы сосредоточимся на энтропии в парадигме вероятности и теории информации.

Итак, как и в прошлый раз, мы воспользуемся примером, чтобы понять энтропию в теории вероятностей.

Энтропия в теории вероятностей

Предположим, у нас есть 3 набора шаров, каждый из которых содержит 4 шара. Первый набор состоит из 4 зеленых мячей, второй содержит 3 зеленых и 1 желтый, а третий или последний набор состоит из 2 зеленых и 2 желтых мячей.

Мы должны выбрать мяч из набора случайным образом, а затем положить его обратно, а затем снова выбрать. Мы должны повторить этот процесс 4 раза, чтобы получить четыре результата.

Какова вероятность того, что мы каждый раз будем выбирать зеленый шар?

Поскольку мы каждый раз возвращаем мяч, вероятность всех пиков не зависит друг от друга. Итак, мы можем применить мультипликативный закон вероятности, таким образом, вероятность получить зеленые шары в каждых четырех выборах из набора 1 будет равна 1, так как шансы получить желтый шар равны нулю.

В случае набора 2 вероятность получить зеленый шар будет 3/4, а для желтого - 1/4. Таким образом, общая вероятность получения зеленых шаров каждый раз будет 0,105.

В случае набора 3 вероятность получить зеленый шар будет 1/2, и то же самое будет и с желтым. Таким образом, общая вероятность получения зеленых шаров каждый раз будет 0,063.

Как видите, значения полной вероятности довольно малы, поэтому мы можем использовать некоторую функцию, чтобы сделать их достаточно большими, чтобы получить некоторую четкую закономерность. Для этого условия подходит функция логарифм по основанию 2.

Логарифм дает отрицательное значение. Итак, чтобы получить положительные значения, мы берем отрицательный логарифм и усредняем полученные положительные значения, эти значения представляют собой энтропию каждого набора.

Шеннон Энтропия

Давайте разберемся с концепцией энтропии с помощью дерева решений, и для этого нам нужно увидеть здесь еще один пример.

Предположим, у нас есть две машины, которые генерируют выходные данные, состоящие из четырех алфавитов, то есть A, B, C, D. Машина 1 генерирует все алфавиты с равной вероятностью 25%. Но машина 2 генерирует A с вероятностью 50%, B и C с вероятностью 12,5% и D с вероятностью 25%. Теперь вопрос: какая машина выдает больше информации?

Клод Шеннон отец теории информации перефразировал вопрос: если вам нужно предсказать следующий алфавит для каждой машины, какой минимум да и нет (бинарных) вопросов, которые вы ожидали бы задать?

В случае машины 1 мы должны задать минимум 2 вопроса (как вы можете видеть на рисунке ниже), чтобы узнать алфавит.

Среднее количество задаваемых вопросов можно рассчитать как

где n - количество вопросов, необходимых для достижения алфавита, а в случае машины 1 его значение равно 2.

В случае машины 2, если мы воспользуемся тем же подходом, что и машина 1, мы получим такое же дерево и такое же среднее количество вопросов.

Итак, в чем разница между этими двумя машинами?

Мы можем избавиться от этого, задавая вопросы по-разному, в зависимости от вероятности алфавита.

Поскольку вероятность A намного больше, мы можем сначала задать вопрос, чтобы отделить A от других алфавитов.

Таким образом, мы можем быть более эффективными, поскольку наше среднее количество вопросов уменьшается при использовании этого подхода.

Таким образом, мы можем сказать, что машина 2 производит меньше информации, потому что меньше неопределенности относительно ее результатов.

Клод Шеннон называет эту меру средней неопределенности энтропией.

Он использует букву H, чтобы обозначить это, и выбранная им единица энтропии была основана на неопределенности справедливого подбрасывания монеты, и он называет это битом

Таким образом, обобщенная формула для энтропии H имеет вид

Здесь мы можем обобщить n, так как мы знаем, что количество задаваемых вопросов на самом деле является высотой дерева, а высота дерева вычисляется с использованием логарифма по основанию 2. Итак, вот еще одна причина использования логарифма для вычисления энтропии.

Итак, теперь мы берем логарифмическую базу 2 количества результатов на уровне дерева.

Но как мы можем подсчитать количество результатов на уровне? Количество результатов на уровне также зависит от вероятности, как показано ниже.

где p - вероятность такого исхода.

Итак, уравнение принимает вид

Шеннон пишет это уравнение несколько иначе:

Он инвертирует выражение внутри логарифма, используя свойство логарифма, потому что в нем стоит отрицательный знак.

Энтропия в теории информации

Теория информации связана с представлением данных в компактном виде (задача, известная как сжатие данных или кодирование источника), а также с передачей и хранением их таким образом, чтобы они были устойчивыми к ошибкам (задача, известная как исправление ошибок или кодирование канала) .

- стр. 56, Машинное обучение: вероятностная перспектива, 2012 г.

Информация

Количество битов, необходимых для представления события, называется информацией.

Выбор логарифма с основанием 2 означает, что единицы измерения информации выражаются в битах (двоичных цифрах). Отрицательный знак гарантирует, что результат всегда будет положительным или нулевым.

Информация будет равна нулю, когда вероятность события равна 1 или определенность, например нет ничего удивительного. Итак, мы можем сказать

Информация позволяет количественно оценить степень неожиданности события, измеренную в битах.

Предположим, у нас есть четыре слова: собака, кошка, рыба и птица. Нам необходимо передать эти слова через некоторый коммуникационный сигнал таким образом, чтобы на другом конце мы могли однозначно идентифицировать слово.

Итак, сколько информации нам нужно или сколько битов требуется для однозначного представления этих слов.

Ответ - 2, поэтому мы можем отчетливо представить эти четыре слова двумя битами.

Считайте, что вероятность того, что эти слова равновероятны, т. Е. 1/4 каждое. Следовательно, мы можем вычислить энтропию, используя формулу из предыдущего раздела, и получить, что в среднем нам нужны 2 бита для представления этих четырех слов.

Но если у нас есть искаженные вероятности, то есть собака 50%, кошка 25%, рыба 12,5% и птица 12,5%. Тогда мы также можем изменить информацию слов.

Используя это представление, нам нужно в среднем всего 1,75 бита для представления этих четырех слов.

Нет представления, которое дало бы нам среднюю длину менее 1,75 бит для этих слов. Итак, существует просто фундаментальный предел, и мы называем этот фундаментальный предел энтропией распределения.

Как видите, мы сжимаем эти данные, поскольку теперь нам нужно меньше битов для передачи данных.

В случае равных вероятностей нам нужно одинаковое количество информации для представления каждого события. Но в случае искаженных вероятностей нам нужно меньше информации для представления вероятных (высоковероятных) событий и больше информации для представления маловероятных (маловероятных) событий.

Энтропия представляет собой меру среднего количества информации, необходимой для представления события, полученного из распределения вероятностей

Использование меньшего количества информации связано с затратами, т. Е. Когда мы сокращаем код для некоторых слов, нам приходится увеличивать длину кодов для других слов, как мы это делаем в нашем примере.

Итак, на самом деле мы жертвуем некоторым пространством, когда сокращаем коды. Например, если мы используем код 01, мы фактически жертвуем всеми остальными кодами с префиксом 01, например, мы больше не можем использовать 010 или 011010110 из-за двусмысленности.

Мы можем вычислить жертву математически как

где L - длина битов, если мы применим эту формулу к приведенному выше примеру, мы потеряем четверть всех возможных кодов.

Когда мы сжимаем данные, нам приходится выбирать между использованием меньшего количества информации и потерей пространства, что является одной из основных целей теории информации. Это всего лишь беглый взгляд на теорию информации.

Вывод

В теории информации понимание энтропии помогает понять сжатие данных. Энтропия сообщения в определенном смысле является мерой того, сколько информации оно действительно содержит.

Энтропия - это мера неопределенности, она будет высокой, когда вероятности сбалансированы (удивительно), и низкой, если вероятности более искажены ( неудивительно )