В предыдущем посте мы обсудили мотивацию оценки максимального правдоподобия и способы ее расчета. Мы также узнали несколько приемов о вычислении логарифма правдоподобия функции, сославшись на применение монотонных функций, и о том, как они значительно упрощают весь процесс оценки критических точек функции, поскольку они сохраняют эти критические точки.

Ближе к концу сообщения MLE я попытался обосновать доводы в пользу использования MAP (Maximum Aposteriori), задав простой вопрос:

Что, если бы последовательность выглядела так:

Как вы думаете, какова вероятность того, что третий бросок окажется решкой?

Ясно, что в этом случае

Почему? Поместите #tails (0) и #heads (2) в уравнение theta_MLE,

и мы приходим к результату. Этот результат говорит нам, что вероятность того, что следующий бросок окажется решкой, равна 0 (т. Е. Он предсказывает, что ни один бросок никогда не выпадет. Решка = › монета всегда будет show Heads), и совершенно очевидно, что это не так (за исключением крайнего случая, когда монета сильно загружена). Теперь это создает большую проблему в процессе оценки параметров, поскольку не дает нам точной вероятности следующего переворота. Мы знаем, что даже у честной монеты есть 25% шанс показать две решки подряд (0,5 x 0,5 = 0,25). Так что маловероятно, что монета может быть честной.

Задний

Хотя мы знаем, что MLE - сильный инструмент в машинном обучении, он не лишен недостатков (как мы только что видели), и эти недостатки возникают, когда у нас есть ограниченный объем доступных данных. Проблема с MLE заключается в том, что это точечная оценка, т. Е. Нам разрешено вычислять MLE при одном конкретном значении, и это приводит к переобучению (Для тех, кто раньше не слышал об этом термине, я отсылаю вас к этому ответу на Quora). Поскольку это точечная оценка, она соответствует данным (2 головы подряд) и не принимает во внимание возможность того, что монета все еще может быть честной (или может быть лишь слегка смещена в сторону Головы). Очевидный вопрос: Как нам противодействовать этой проблеме?

Обычно у нас есть предварительные представления о происходящих в мире процессах, которые не имеют ничего общего с математикой. Рассмотрим простой пример. Предположим, вы делаете ставку в игре «Угадай бросок» против своего друга. Теперь вы можете предположить, что ваш друг слегка сфальсифицировал монету, чтобы быть предвзятым в его пользу, возможно, сделав ее немного загруженной в пользу Heads; 55% орел и 45% решка (никто не глуп, чтобы сделать его слишком предвзятым к определенному флипу, поскольку это было бы довольно легко обнаружить). Эти предположения, которые вы делаете о случайном процессе, называются приоритетными. В техническом плане:

Априорное распределение вероятностей, часто называемое просто априорным, неопределенной величины - это распределение вероятностей, которое выражает мнение об этой величине до того, как будут приняты во внимание некоторые свидетельства. .

Есть ли способ математически включить эти предыдущие убеждения в нашу модель?

ДА: мы можем сделать сам параметр theta случайной величиной, и он также оправдывает обозначения, с которыми мы работали; P (F = f | theta) [Обратите внимание, насколько хорошо это предположение работает, учитывая, что эта нотация уже подразумевает, что theta является случайной величиной].

Теперь мы можем иметь распределения по theta и включить идею о том, что даже в крайних случаях (HH) монета может быть честной. И, как мы увидим, это понятие также помогает нам предотвратить переобучение.

Для любого x мы хотим иметь возможность выразить распределение нашего параметра theta после просмотра данных, и мы делаем это, обусловливая theta над наблюдаемая последовательность данных, например:

где D - случайная величина, которая фиксирует наблюдаемую последовательность, то есть наши данные. А теперь, когда theta является случайной величиной, она может принимать определенные скалярные значения x. Поскольку мы говорим о подбрасывании монеты, мы знаем, что приведенное выше уравнение имеет смысл только для x в [0,1] (поскольку x - это вероятность, оно должно быть между 0 и 1).

Я понимаю, что это требует большого внимания. Итак, давайте сделаем шаг назад и попытаемся понять, что происходило в MLE, и как это соотносится с нашей текущей оценкой MAP:

А теперь нас интересуют:

Сейчас не совсем очевидно, что интуитивно означает термин MAP, но это будет к тому времени, когда мы закончим с этим постом.

И в целом,

Мы можем применить старое доброе правило Байеса, чтобы сделать формулировку MAP более демистичной:

В числитель входят:

Мы знаем эту часть из MLE, с той лишь разницей, что теперь она исправлена ​​с помощью theta = x. Это называется правдоподобием.

Это наша предварительная уверенность в ценности theta перед наблюдением за любыми данными. Он называется Prior и предотвращает переобучение. Немного мотивации на Приоры в целом:

Во многих случаях у нас есть основания полагать, что некоторые значения для theta более вероятны, чем другие. Например, в нашем случае с подбрасыванием монеты мы ожидаем, что значение будет где-то около 0,5, а экстремальные значения, такие как 0 или 1, менее вероятны. Это то, что улавливается Prior, и это предотвратит экстремальные результаты (переоснащение).

Знаменатель p (D), называемый Evidence, является нормализующей константой и в нашем случае не так важен. Без знаменателя выражение в правой части больше не является вероятностью и, следовательно, не будет варьироваться от 0 до 1. Нормирующая константа позволяет нам получить вероятность возникновения событие, а не просто относительная вероятность этого события по сравнению с другим. Посмотрите это обсуждение stackexchange.

Из всего этого обсуждения мы должны извлечь три термина:

  1. Прежний
  2. Вероятность и
  3. Задний

и что они связаны правилом Байеса. Итак, Prior - это наше убеждение в том, как выглядит theta до того, как мы наблюдаем какие-либо данные, а Posterior - это наше обновленное представление о том, как выглядит theta. после мы наблюдали некоторые данные.

Теперь мы установили связь между вероятностью (которую мы использовали в предыдущем посте) и апостериорной (что сейчас представляет наш интерес). Связующим звеном между ними является распространение Prior, а распределение Prior является частью нашей модели. Итак, мы сами выбираем приору. Смысл предыдущего состоит в том, что мы должны выбрать его, не глядя на наблюдения, и это оставляет место для (возможно, субъективных) предположений модели. Нет конкретного правила, которое должно было бы выполняться ранее, за исключением того, что оно должно быть допустимым распределением вероятностей:

Давайте посмотрим на пару примеров Priors:

  1. Мы предполагаем, что существуют возможности, отличные от 0 (что было MLE для последовательности HH). Этот априор чрезвычайно слабый в том смысле, что он не дает много информации о том, что это за возможности на самом деле.
  2. Мы также можем предположить, что параметр theta, скорее всего, находится в диапазоне от 0,4 до 0,5, что примерно соответствует истинной вероятности 0,5 (несмотря на то, что решение MLE сообщает нам, что это 0). Поскольку мы ограничиваем наше предположение определенной областью, это пример довольно сильного априорного значения.

Эти субъективные предположения также называются Индуктивными предубеждениями. Вводя эти субъективные предположения, мы склоняем наш анализ / модель к определенным решениям. Это то, о чем мы должны помнить при написании модели.

Оценка MAP

Следующие графики иллюстрируют несколько вариантов, которые у нас есть в отношении theta:

Первый график показывает равномерное распределение по всем возможным параметрам. Он не вносит никаких индуктивных искажений в модель и, следовательно, не предпочитает какие-либо решения для тета другим. Другими словами, это наша оценка максимального правдоподобия. Таким образом, мы можем сказать, что MLE - это частный случай MAP, когда предыдущее значение одинаково.

Остальные три варианта накладывают некоторую индуктивную предвзятость на theta. В частности, мы можем видеть, что все они центрированы вокруг 0,5 с разной шириной (один файл cookie, если вы можете вывести порядок убывания строгости, которую последние три модели принимают на предыдущую;)). Это означает, что все последние три предполагают, что реальное решение находится в небольшом интервале около 0,5 с различной шириной интервалов.

Хорошо, теперь у нас есть представление о том, как должен выглядеть наш приор. Можем ли мы иметь еще какие-то мотивы, стоящие за выбором нашей предыдущей модели? Одна из возможных мотиваций может заключаться в том, что мы можем выбрать априорное решение, которое упростит дальнейшие вычисления (они не слишком обширны). Это один из движущих факторов для выбора подходящего априора для нашей конкретной модели (в нашем случае: подбрасывания монеты).

Поскольку априорное является просто еще одним распределением вероятностей, мы хотели бы выбрать это распределение таким образом, чтобы упростить наши последующие вычисления. И оказывается, что всякий раз, когда мы ищем априор для параметра, который напрямую соответствует вероятности (как в нашем случае, theta соответствует вероятности появления хвостов при подбрасывании монеты) обычно существуют такие приоры, которые хорошо подходят.

В нашем случае это будет бета-версия:

Бета-распределение можно понимать как представление распределения вероятностей, то есть оно представляет все возможные значения вероятности, когда мы не знаем, какова эта вероятность. Для более интуитивного понимания см. This.

Хорошо, на первый взгляд это выглядит очень византийским и унылым, но оставайтесь здесь со мной. Давайте посмотрим на это внимательно; мы начинаем замечать термины, которые мы уже видели раньше:

Мы видели компонент на изображении. 14 в MLE, за исключением того, что # Голова и # Решка в экспонентах были заменены на a-1 и b-1.

Наряду с термином theta у нас есть нормализующая константа, которая имеет Гамма-функции. Гамма-функция - это не что иное, как расширение факториальной функции, аргумент которой сдвинут на 1 вниз:

Особенностью гамма-функции является то, что она позволяет нам оценивать факториал при любом действительном значении (гамма-функция 1,5 хорошо определена, а 1,5! Не определена).

То, что мы видели это раньше по частям, не случайно. Мы выбрали Conjugate Prior. Всякий раз, когда у нас есть априор, функциональная форма которого аналогична вероятности, и они хорошо сочетаются друг с другом, мы говорим о так называемых сопряженных априорных значениях, а бета-распределение является сопряженным априорным условием для вероятности нашего подбрасывания монеты. эксперимент. Интерпретация следующая: не видя никаких данных, мы чувствуем, каким будет результат нашего эксперимента с подбрасыванием монеты. В нашем эксперименте, если бы мы сделали подбрасывание монеты a + b-2, то мы могли бы выбрать априор так, чтобы из этих подбрасываний a-1 отображалось решкой, а оставшиеся b-1 отображались вверх Heads.

Итак, если мы предположим, что монета несмещена, мы выберем a и b равными. И чем больше мы уверены в этом предположении, тем выше мы выбираем a и b.

Следующие графики иллюстрируют несколько вариантов a и b для нашего бета-распределения:

Если вы хотите поиграть с различными бета-дистрибутивами, посмотрите этот блокнот iPython здесь.

Интерпретации четырех графиков:

а. Выбор a и b равными 1 (равным) означает, что у нас нет никаких предположений относительно нашего эксперимента. Это важная особенность бета-распределения: оно обобщается до равномерного распределения, когда a = b = 1.

б. Выбор a ‹b означает, что мы менее уверены в #Tails, чем в #Heads. График наглядно иллюстрирует это, показывая, что вероятность решки с большей вероятностью будет меньше 0,5.

c. Мы вдвое больше уверены в том, что флип - это решка, чем решка. Как видно из графика, вероятность того, что флип окажется решкой, будет больше 0,5.

d. Выбор a и b не целыми числами благоприятствует крайним решениям. Выбор нецелых чисел для a и b, к сожалению, не имеет какой-либо жизнеспособной физической интерпретации, но дает нам большую гибкость при моделировании априорного распределения.

В некотором смысле, чем больше мы уверены в нашем предыдущем предположении, тем выше мы можем выбрать a и b, как это видно из графиков «b» и «c» на рис. 16.

Теперь, когда мы обосновали с помощью различных аргументов, что бета-распределение является подходящим предварительным вариантом для нашего эксперимента с подбрасыванием монеты, давайте включим все, что мы знаем, в формулу Байеса, которую мы использовали в Img. 8:

Мы знаем:

Теперь вы можете подумать, что вероятность, которую мы вывели раньше, содержала theta:

Причина, по которой у нас теперь есть x вместо theta, заключается в том, что мы предположили, что theta сама по себе является случайной величиной и может принимать определенное значение. х.

Поскольку мы уже решили, что априор является бета-дистрибутивом, он принимает следующий вид:

Подключаем эти значения к правилу Байеса:

Второе утверждение вводит знак пропорциональности, опуская p (D), а также нормирующую константу бета-распределения, поскольку оба они являются константами относительно. х. (Кроме того, отсутствие констант не изменяет положение максимума, изменяется только его значение.)

Рассмотрим второе утверждение на изображении выше. Мы можем понять, почему бета-распределение или сопряженные априорные значения в целом сильны, потому что этот термин на самом деле выглядит как вероятность, за исключением того, что в нем есть эти исправляющие члены a-1 и b-1. Так что как бы ни были экстремальны | T | и | H | (как в случае, когда мы только дважды подбросили монету), у нас есть исправляющие члены a и b.

По сути, мы здесь отрываем результат от крайних предельных результатов, как мы получили в случае максимального правдоподобия со слишком маленькими данными. И причина, по которой сопряженные приоры являются таким отличным выбором для приоров, заключается в том, что они обладают именно этим эффектом.

Хорошо, теперь у нас остался следующий термин:

Как найти мультипликативную константу, превращающую знак пропорциональности в знак равенства?

Давайте сделаем обходной путь, чтобы выяснить, как найти решения конкретных интегралов, которые нельзя решить (или, по крайней мере, очень сложно решить) обычными методами:

Как вы думаете, можно ли аналитически решить этот интеграл на бумаге? Я не специализируюсь на математике, но для меня ответ - да и нет. Да, вы можете, но потребуется много времени, чтобы прийти к результату по обычным правилам исчисления, если вы каким-то образом можете придумать решение. Нет, ну по той же причине, что это занимает слишком много времени.

Теперь, если вы очень хорошо знаете свои распределения вероятностей, вы должны знать, что следующий интеграл:

pdf для стандартного гауссианского языка с нулевым средним и единичной дисперсией, то есть X ~ N (0,1), и он равен 1. Если вы хотите освежить в памяти гауссианы, я думаю, что статья в w ikipedia довольно солидна.

Если вышеупомянутый интеграл равен 1, это просто вопрос перестановки членов путем умножения обеих частей на sq.rt (2 * pi), чтобы получить ответ на фактический интеграл, о котором мы говорили (Рис. 23)., И Мы видим, что:

Следовательно, в некотором смысле мы изменили свой путь, чтобы прийти к решению довольно сложного интеграла.

Теперь, когда у нас есть довольно удобный трюк, давайте посмотрим, сможем ли мы применить его, чтобы узнать константу пропорциональности для нашей оценки MAP.

Мы знаем, что в нашем предыдущем распределении суммируется до 1:

И ПРАВАЯ НА ИМГ. 22 для MAP пропорционально бета-PDF, который интегрируется с 1. Обратите внимание на сверхъестественное сходство с нашим крутым трюком?

Следовательно, при обратном проектировании апостериорное распределение также должно быть бета-распределением, и единственная константа, которая работает здесь, - это нормализующая константа соответствующего бета-распределения:

Нет другой константы, которая позволяет RHS нашей оценки MAP интегрироваться до 1. Но поскольку она должна интегрироваться до 1, это единственная рабочая константа.

Всякий раз, когда нам нужно решить сложный интеграл, мы внимательно изучаем его и пытаемся определить, выглядит ли он как pdf. И если это так, мы можем легко реконструировать нормирующую константу этого PDF-файла и затем легко решить интеграл.

Непосредственным и очень приятным следствием этого трюка обратной инженерии является то, что мы можем легко определить распределение нашего апостериорного распределения. Это позволяет нам знать, что наше апостериорное распределение должно быть бета-распределением, и мы также знаем параметры:

Теперь мы можем найти максимум нашего параметра theta точно так же, как мы это делали в сообщении MLE (я пропускаю фактическое вычисление; это тривиальное приложение журнала к уравнению на рисунке 21, чтобы найти из максимума), и мы приходим к следующему результату:

Сравнивая эту оценку MAP с оценкой ML (| T | / | H | + | T |), мы видим, что они очень похожи. Член | T | / | H | + | T | снова появляется в оценке MAP, за исключением того, что это исправлено нашим предыдущим предположением.

По нашему предварительному мнению и после просмотра (i.i.d.) данных, theta_MAP - лучшее предположение для theta.

Это называется максимальной апостериорной оценкой (MAP).

Обратите внимание на самое главное: Posterior работает очень интуитивно. Если у нас очень мало данных (например, в нашем втором эксперименте, где у нас было только 2 подбрасывания монеты, причем оба были Heads), эффект предыдущего намного сильнее. С другой стороны, для фиксированных a & b, если мы выполняем достаточно много подбрасываний монеты (например, миллион), тогда эффект a & b почти незначителен, и мы очень близко подходим к MLE. Это очень интуитивно понятно, потому что в режиме с низким объемом данных априор предотвращает переоснащение, тогда как, если у нас есть много надежной информации из случайного процесса, нам больше не нужна априорная информация. Мы можем получить все это из самих данных. Другими словами, MLE доминирует, когда мы плаваем в данных.

Это конец процесса? Мы уже учли наши предположения о том, как устроен мир, как разворачиваются случайные процессы. Что еще осталось сделать? Теперь мы можем просто сесть и посмотреть трилогию LOTR.

Или можем? Как оказалось, когда мы включили наши предыдущие убеждения в модель, мы неявно отдали предпочтение одним решениям больше, чем другим (предполагая бета-распределение по процессу подбрасывания монеты, мы смещали оценку MAP в сторону конкретного решения; форма, которая выглядит как Бета pdf). А как насчет всех других априорных факторов, которые также могут повлиять на процесс, хотя и очень тонким образом? Есть ли способ включить их и в нашу модель? Как вы уже знаете, ответ - ДА, и мы подробно обсудим его в следующем посте, когда будем говорить о полностью байесовском анализе нашей модели.

Я понимаю, что иногда за этим постом было непросто следить, приходилось много математики. Я надеюсь, что я сделал его немного проще и интуитивно понятным для вас, чтобы понять процесс оценки MAP. Если вы найдете какую-то конкретную часть слишком эзотерической, не стесняйтесь оставлять комментарий, я займусь этим, как только смогу.

Ресурс: курс машинного обучения преподается в моей аспирантуре Мюнхенского технического университета. Смело смотрите лекции здесь.

Если вы найдете этот пост интересным, порекомендуйте его и поделитесь им, чтобы другие могли извлечь из него пользу.