Если у нас есть шестигранная игральная кость, и у нас нет предварительной информации о ней (то есть, это необъективная игральная кость?), тогда

  • мы можем просто бросать кости столько раз, сколько захотим (чем больше мы проводим эксперимент, тем больше вероятность получить лучшую оценку)
  • а затем оцените вероятность того, что мы получим каждое лицо, просто посчитав количество раз, когда мы получили это лицо, и разделив это число на количество раз, когда мы провели эксперимент. Мы делаем то же самое для всех остальных лиц (на самом деле нам нужно вычислить это только для пяти лиц - последнее определяется только этими пятью значениями, так как сумма всех из них должна составлять в сумме до 1 - уверенность в том, что одно из них встречается в эксперименте). Итак, если мы проделали этот эксперимент 1000 раз и получили 200,100,300,80,120,200 (для простоты выбрал их как кратные 10), то распределение вероятностей будет 0,2, .1, .3, .08,. 12, .2
  • это MLE (оценка максимального правдоподобия) - оценка распределения вероятностей путем выбора значений, которые максимально соответствуют экспериментальным наблюдениям.

С другой стороны, если мы заранее знаем, что игральная кость имеет смещение (т.е. у нее есть сколы / закругленные края, из-за чего она чаще приземляется на нескольких гранях), то мы можем разложить ее на множители. в наши расчеты по оценке вероятности появления каждого лица.

  • Например, если мы зафиксируем наши знания о смещении игральной кости в таком распределении, как (.1, .1, .3, .3, .1, .1), то мы можем учесть это в нашей оценке.
  • Поэтому, если мы используем результаты предыдущего эксперимента (.2, .1. .3, .08. .12. .2) и добавляем предыдущие значения (.1, .1, .3, .3,. 1, .1) и просто разделите результат на 2, чтобы все они красиво сложились в 1 (нормализовано), у нас есть (.15, .1, .3, .19, .11, .15). В качестве альтернативы, мы можем представить, что мы провели эксперимент 2000 раз и получили результаты 300,200,600,380,220,300, которые снова дают те же значения (0,15, 0,1, 0,3, 0,19, 0,11, 0,15). Воображаемое распределение может быть любым (все значения вероятностей в сумме составляют 1) - числа были выбраны для упрощения арифметики.
  • Это MAP (максимальная апостериорная оценка)
  • Из этого примера видно, что MLE - это просто частный случай MAP, где мы предполагаем, что все результаты одинаково вероятны. Однако есть тонкая разница в том, что если у нас очень мало данных (то есть мы проводим эксперимент очень несколько раз), возможно, что конкретное лицо может никогда не появиться, и мы бы назвали прогноз с нулевой вероятностью. Это явно было бы неправильно - потому что, если мы будем использовать полученные значения вероятности из нашего эксперимента для будущих результатов эксперимента, мы будем ошибаться каждый раз, когда это конкретное лицо является результатом эксперимента. Эта проблема особенно остро стоит, когда вы прогнозируете несколько событий, происходящих вместе, - что один ноль сделает все вычисление совместной вероятности равным нулю. MAP не имеет этой проблемы, потому что мы можем выбрать предварительное распределение, которое имеет ненулевое значение для всех результатов.

В итоге,

MLE и MAP - это то, что нам подсказывает здравый смысл

  • MLE - оцените вероятности с данными, которые у нас есть, без предварительных предположений о лежащем в основе распределении вероятностей.
  • MAP - Если у нас есть какие-то предварительные знания, мы можем включить их в нашу оценку основного распределения вероятностей вместе с тем, что данные говорят нам о распределении.

Для чего это можно использовать?

Теперь мы можем использовать это наблюдаемое распределение вероятностей для прогнозирования значения в любом будущем эксперименте (например, какова вероятность получить три шестерки в 5 ролях и т. Д.)

Почему такая очевидная концепция так важна и часто упоминается в статьях по машинному обучению?

Представьте, что мы прогнозируем продолжительность жизни человека, то есть если он / она проживет более 60 лет - логический вывод, используя 50 параметров, каждый из которых также является логическим (например, пол - мужской / женский, алкоголь / без алкоголя и т. Д.), Мы Ясно, что невозможно собрать данные, даже теоретически, только для одного экземпляра каждой из всех возможных 2⁵⁰ комбинаций, поскольку есть только ~ 10 миллиардов человек, от которых нужно собирать данные. Наша оценка может быть основана только на подмножестве, даже если не учитывать практическую невозможность сбора 10 миллиардов образцов.

  • Итак, если мы собираемся оценить распределение вероятностей с участием многих переменных, это можно сделать только на основе данных подмножества.
  • Оценка распределения вероятностей в реальных сценариях, включающих большое количество переменных, по существу включает в себя поиск параметров theta функции F (X, theta), которые лучше всего соответствуют доступным данным. Параметры theta могут быть параметрами распределения вероятностей или изученными весами нейронной сети.
  • Большинство проблем машинного обучения, в частности моделей нейронных сетей, к которым в значительной степени можно отнести текущую волну успеха в машинном обучении, можно рассматривать как аппроксимацию функций, в которой значения параметров (весов ) сети, основываясь на доступных данных, максимизируются с помощью таких методов, как MLE и MAP.
  • Таким образом, MLE и MAP пытаются найти параметры функции, представляющей распределение вероятностей, которое наилучшим образом соответствует доступным данным.

Ссылки

  1. Машинное обучение - это старая серия лекций 2015 года, но первые разделы посвящены MLE, MAP и другим базовым основам машинного обучения.
  2. Http://www.math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf В этой статье обсуждается возможный выбор предшествующих распределений, основанный на нашем приблизительном понимании основного распределения. Однако в дополнение к этому выбор априорной оценки часто определяется также удобством вычислений.

Первоначально опубликовано на www.quora.com.