Интуиция в MLE и MAP на примере футбола

Оценка максимального правдоподобия (MLE) и оценка максимального апостериорного (MAP) метода оценки параметров статистических моделей.

Несмотря на небольшую передовую математику, лежащую в основе методов, идеи MLE и MAP довольно просты и интуитивно понятны. В этой статье я собираюсь объяснить, что такое MLE и MAP, с акцентом на интуицию методов наряду с математикой, лежащей в основе.

Пример: вероятность того, что Ливерпуль выиграет матч в следующем сезоне.

В сезоне 2018-19 годов «Ливерпуль» выиграл 30 матчей из 38 в Премьер-лиге. Имея эти данные, мы хотели бы сделать предположение о вероятности того, что «Ливерпуль» выиграет матч в следующем сезоне.

Самым простым предположением здесь будет 30/38 = 79%, что является наилучшим возможным предположением, основанным на данных. Фактически это оценка с использованием метода MLE.

Затем предположим, что мы знаем, что процент побед Ливерпуля за последние несколько сезонов составлял около 50%. Как вы думаете, наше лучшее предположение - 79%? Я думаю, что какое-то значение от 50% до 79% было бы более реалистичным, учитывая предварительные знания, а также данные этого сезона. Это оценка с использованием метода MAP.

Я считаю, что приведенные выше идеи довольно просты. Но для более точного понимания я подробно расскажу о математических деталях MLE и MAP в следующих разделах.

Модель и параметр

Прежде чем переходить к каждому из методов, позвольте мне пояснить модель и параметр в этом примере, поскольку MLE и MAP являются методами оценки параметров статистических моделей.

В этом примере мы упрощаем, что Ливерпуль имеет единую вероятность победы (назовем это θ) на протяжении всех матчей в разные сезоны, независимо от уникальности каждого матча и любых сложных факторов реальных футбольных матчей. Другими словами, мы принимаем каждый матч Ливерпуля как попытку Бернулли с вероятностью выигрыша θ.

Исходя из этого предположения, мы можем описать вероятность того, что Ливерпуль выиграет k раз из n совпадений для любого заданного числа k и n (k≤n). Точнее, мы предполагаем, что количество побед Ливерпуля следует биномиальному распределению с параметром θ. Формула вероятности того, что Ливерпуль выиграет k раз из n матчей с учетом вероятности победы θ, приведена ниже.

Это упрощение (описание вероятности с использованием только одного параметра θ независимо от сложности реального мира) является статистическим моделированием этого примера, а θ - параметром, который необходимо оценить.

В следующем разделе давайте оценим это θ с помощью MLE и MAP.

Оценка максимального правдоподобия

В предыдущем разделе мы получили формулу вероятности того, что «Ливерпуль» выиграет k раз из n матчей для заданного θ.
Поскольку у нас есть наблюдаемые данные за этот сезон, то есть 30 побед из 38 матчей (назовем эти данные как D), мы можем вычислить P (D | θ) - вероятность того, что эти данные D соблюдаются для данного θ. Давайте в качестве примеров вычислим P (D | θ) для θ = 0,1 и θ = 0,7.

Когда вероятность победы Ливерпуля θ = 0,1, вероятность того, что соблюдаются эти данные D (30 побед в 38 матчах), следующая.

P (D | θ) = 0,00000000000000000000211. Итак, если вероятность победы Ливерпуля θ на самом деле 0,1, эти данные D (30 побед в 38 матчах) равны крайне маловероятно. А что если θ = 0,7?

Намного выше, чем предыдущий. Таким образом, если вероятность выигрыша «Ливерпуля» θ равна 0,7, эти данные D будут соблюдаться с гораздо большей вероятностью, чем при θ = 0,1.

Основываясь на этом сравнении, мы можем сказать, что θ с большей вероятностью будет 0,7, чем 0,1 с учетом фактических наблюдаемых данных Д.
Здесь мы вычисляли вероятность того, что D соблюдается для каждого θ, но в то же время мы можем сказать, что мы проверка вероятности каждого значения θ на основе наблюдаемых данных. Из-за этого P (D | θ) также считается вероятностью θ. Следующий вопрос: каково точное значение θ, которое максимизирует вероятность P (D | θ)? Да, это оценка максимального правдоподобия!

Значение θ, максимизирующее вероятность, можно получить, имея производную функции правдоподобия по θ и устанавливая ее равной нулю.

Решив это, θ = 0,1 или k / n. Поскольку вероятность стремится к нулю, когда θ = 0 или 1, значение θ максимизировать вероятность составляет k / n.

В этом примере оценочное значение θ составляет 30/38 = 78,9% при оценке с помощью MLE.

Максимальная апостериорная оценка

MLE эффективен, когда у вас достаточно данных. Однако это не работает, когда наблюдаемый объем данных невелик. Например, если у «Ливерпуля» было только 2 матча и они выиграли 2 матча, то расчетное значение θ по MLE будет 2/2 = 1. Это означает, что оценка говорит, что Ливерпуль выигрывает 100%, что нереалистично. MAP может помочь в решении этой проблемы.

Предположим, что мы заранее знаем, что процент побед Ливерпуля за последние несколько сезонов составлял около 50%.
Значит, без данных за этот сезон у нас уже есть некоторое представление о потенциальной ценности θ. Основываясь (только) на предварительных знаниях, значение θ, скорее всего, будет 0,5 и менее вероятно будет 0 или 1. Другими словами, вероятность θ = 0,5 выше, чем θ = 0 или 1. Назовем это априорной вероятностью P (θ),, и если мы визуализируем это, это будет как показано ниже.

Затем, имея наблюдаемые данные D (30 побед из 38 матчей) за этот сезон, мы можем обновить это P (θ), которое основано только на предварительных знаниях. Обновленная вероятность θ при заданном D выражается как P (θ | D) и называется апостериорной вероятностью.
Теперь мы хотим узнать наилучшее предположение о θ, учитывая как наши предварительные знания, так и наблюдаемые данные. Это означает максимальное значение P (θ | D), и это оценка MAP.

Вопрос в том, как рассчитать P (θ | D)? До сих пор в этой статье мы проверяли способ вычисления P (D | θ), но не видели способа вычисления P (θ | D). Для этого нам нужно использовать приведенную ниже теорему Байеса.

Я не углубляюсь в теорему Байеса в этой статье, но с помощью этой теоремы мы можем вычислить апостериорную вероятность P (θ | D), используя правдоподобие P (D | θ) и априорная вероятность P (θ).

В уравнении есть P (D), но P (D) не зависит от значения θ. Поскольку нас интересует только нахождение θ, максимизирующего P (θ | D), мы можем игнорировать P (D) при максимизации.

Вышеприведенное уравнение означает, что максимизация апостериорной вероятности P (θ | D) по отношению к θ равна максимизации произведения правдоподобия P ( D | θ) и априорной вероятности P (θ) относительно θ.

Мы обсуждали, что означает P (θ) в более ранней части этого раздела, но мы еще не углублялись в формулу. По сути, мы можем использовать любые формулы, описывающие распределение вероятностей как P (θ), чтобы хорошо выразить наши предварительные знания. Однако для простоты вычислений используются конкретные распределения вероятностей, соответствующие распределению вероятностей правдоподобия. Это называется сопряженное предварительное распределение.

В этом примере вероятность P (D | θ) следует биномиальному распределению. Поскольку сопряженным предшествующим биномиальным распределением является бета-распределение, мы используем бета-распределение для выражения здесь P (θ). Бета-распределение описано ниже.

Где α и β называются гиперпараметром, который не может быть определен по данным. Скорее мы устанавливаем их субъективно, чтобы хорошо выразить наши предыдущие знания. Например, графики ниже представляют собой некоторую визуализацию бета-распределения с различными значениями α и β. Вы можете видеть, что верхний левый график - это тот, который мы использовали в приведенном выше примере (выражая, что θ = 0,5 - наиболее вероятное значение, основанное на предварительных знаниях), а верхний правый график также выражает те же предварительные знания, но это для тех, кто верит, что результаты прошлых сезонов очень хорошо отражают истинные возможности Ливерпуля.

Замечание о правом нижнем графике: когда α = 1 и β = 1, это означает, что у нас нет никаких предварительных знаний о θ . В этом случае оценка будет полностью такой же, как у MLE.

Итак, к настоящему времени у нас есть все компоненты для вычисления P (D | θ) P (θ) для максимизации.

Как и MLE, мы можем получить θ, максимизируя this, имея производную функции this по θ и устанавливая ее равной нулю.

Решая это, мы получаем следующее.

В этом примере, если мы используем α = 10 и β = 10, тогда θ = (30 + 10–1) / (38 + 10 + 10– 2) = 39/56 = 69,6%

Заключение

Как видно из приведенного выше примера, идеи, лежащие в основе сложных математических уравнений MLE и MAP, на удивление просты. В качестве примера в этой статье я использовал биномиальное распределение, но MLE и MAP применимы и к другим статистическим моделям. Надеюсь, эта статья помогла вам понять MLE и MAP.