Что такое «информация» в теории информации?

Разрушение фундаментальной концепции информации.

Возможно, вы слышали или читали о примере, в котором теория информации использовалась в сочетании с алгоритмами машинного обучения, чтобы либо объяснить их, либо доказать, что алгоритм оптимизирует правильные вещи и т. Д.

В этом посте я хочу попытаться объяснить это простым языком: какова информация, исходя из базовой вероятности?

Фундаментальный термин в теории информации - энтропия. Этот термин может вводить в заблуждение, поскольку энтропия как бы связана с хаосом: в основном с беспорядком. В теории информации энтропия сообщает нам количество информации, содержащейся в наблюдаемом событии x. У события, конечно, есть вероятность p (x).

Итак, что мы подразумеваем под информацией? Я считаю, что интуитивно понять этот термин непросто. Количество «информации» на самом деле сводится к хранению. Хранение информации в битах. В теории информации мы думаем о зашумленном канале связи, который используется для передачи некоторых событий от одной стороны к другой. Шумность пока не важна. Эти события нужно как-то закодировать, точнее, их нужно закодировать в биты (как это видят теоретики информатики). В идеале мы не хотим использовать слишком много битов для передачи этих событий через канал связи, потому что биты требуют энергии. Мы хотим потратить большую часть наших битов на редкие события, так как они будут реже отправляться по каналу, что снижает затраты.

А что такое редкое событие? Ну, конечно, с малой вероятностью p (x). Это уже на что-то намекает, мы хотим, чтобы информация о событии была больше для событий с меньшей вероятностью. Итак, эта функция, назовем ее h (x),, должна возвращать количество информации, содержащейся в событии x, которое является высоким для более низкой вероятности и низким для событий с высокой вероятностью. Теперь давайте посмотрим на следующий h (x):

Это кажется правильным: чем ниже вероятность, тем выше информация. У него есть еще одно приятное свойство: если мы возьмем информацию о двух независимых событиях, происходящих одновременно, мы придем к следующему:

Это следует из простой обработки логарифмов, потому что в случае, когда x и y независимы (возможно, проверьте это для упражнения), выполняется следующее:

Это хорошее свойство функции h, оно означает, что мы можем складывать информацию о независимых событиях, но это также означает, что мы не можем складывать информацию о зависимых событиях. Сам логарифм - постоянно повторяющаяся функция в машинном обучении, математике, физике. Что делает его таким приятным с точки зрения вычислений (короче), так это то, что он позволяет нам записывать продукты в виде сумм, выводить хорошие границы для функций и многое другое.

Теперь, если мы хотим измерить информацию о случайной величине, нам нужно посмотреть на ожидаемую информацию по всем ее реализациям (событиям). Да, мы берем математическое ожидание по h (x), которое выглядит следующим образом, если мы предполагаем, что имеем дело с дискретной случайной величиной:

И это в точности определение энтропии! Предположим, что p (x) является распределением Бернулли, что означает, что могут произойти два события (x и y) с их соответствующие вероятности, то мы можем написать, что p (x) = 1-p (y), потому что вероятности в пространстве событий должны суммироваться до единицы. В этом случае мы можем построить энтропию как функцию от p (x), тогда мы бы кое-что заметили:

Мы замечаем, что это максимальное значение, когда p (x) принимает значение 0,5. Это означает, что все события равновероятны, поэтому несут одинаковый объем информации в случае распределения Бернулли. В свою очередь, допустим, что у нас есть другая система, в которой мы смотрим на две случайные величины X и Y с их соответствующими распределениями p и q. Мы можем посмотреть их взаимную информацию. Это количество часто используется в машинном обучении, особенно в разрекламированной области распутывания, где мы хотим изучить скрытое представление, содержащее независимые факторы (т.е. минимизирующее взаимную информацию между независимыми факторами). В любом случае, это сводится к следующему уравнению:

Давайте немного поразмышляем над этим. Мы знаем, что в случае, когда случайные величины x и y независимы, мы можем записать совместное распределение p (x, y) = p (x) р (у). В случае, если они не являются независимыми, мы должны подчиняться правилу Байеса, p (x, y) = p (x) p (y | x). Если независимость сохраняется, отношение в логарифме становится 1, следовательно, выражение равно 0, 0 взаимной информации. Это имеет смысл, поскольку благодаря независимости мы знаем, что возникновение одного события не влияет на возникновение другого. В противном случае мы получили бы ненулевую взаимную информацию.

Теория информации - очень полезная концепция для практиков машинного обучения, поскольку она позволяет им взглянуть на алгоритмы обучения с теоретико-информационной точки зрения. Скоро будет больше удовольствия от теории информации! Будьте на связи.