Введение

В этой статье мы рассмотрим, что такое MLE, его полезность и как можно получить/найти параметр модели для линейной регрессии. MLE означает оценку максимального правдоподобия, это генеративный алгоритм, который помогает определить параметры модели, которые максимизируют вероятность наблюдения данных, которые мы уже наблюдали.

Проще говоря, предположим, что у нас есть данные (D) = {(x1,y1),(x2,y2),(x3,y3)….(xₙ,yₙ)}, взятые из некоторого неизвестного нам распределения. Например, у автора электронной почты есть волшебный кубик, который он бросает m раз, в зависимости от того, какое слово появляется на лице, которое он пишет в электронном письме, и отправляет его нам. Другой пример: вы подбрасываете монету n раз как H, H, T, T, T, T, T, T. Вы не знаете, как выглядит распределение орла и решки с учетом выборочных данных.

Теперь, если мы каким-то образом выясним, как работает волшебная оценочная матрица или как эта древняя монета выводит результат, который мы наблюдаем, тогда это здорово. Почему? Потому что мы можем ввести X в аппроксимированную функцию распределения и получить вероятный y в качестве ожидаемой метки, которая при извлечении из исходного P (X, y) выглядит одинаково.

Более формально нам нужно найти 𝛳, который является параметром модели, максимизирующим вероятность наблюдаемых данных P(D; 𝛳). Примечание. Не путайте с P (D | 𝛳), что бы ни было после точки с запятой, это параметр модели, тогда как P (D | 𝛳) означает, что у нас есть параметры, теперь какова вероятность того, что данные будут соответствовать.

L(𝛳;D) = P(D;𝛳) одинаковы. P(D;𝛳) можно рассматривать как вероятность наблюдения данных, поступающих из некоторого распределения, когда мы устанавливаем параметры модели как 𝛳. L(𝛳;D) — это вероятность 𝛳, принимающая определенные значения при условии, что мы наблюдали данные заранее, так что она хорошо описывает данные. Надеюсь, вы сможете убедить себя в этом!

Предположения:

  • Теперь MLE не будет работать нормально, когда у нас есть ограниченные выборки данных. Например, глядя на пример с подбрасыванием монеты, нельзя сказать, что P(орел) — это то же самое, что P(хвост). честная монета.
  • Выборки данных независимы и идентичны по своей природе (i.i.d), что означает отсутствие зависимости одной точки данных от другой при построении. На самом деле это может быть не так, как в электронном письме, слова не будут написаны случайным образом, но если мы будем придерживаться этого предположения, окажется, что математику легко вычислить, и она хорошо работает и в реальном сценарии.
  • Другое дело, мы делаем начальное предположение о распределении данных, т. е. о том, откуда данные берутся. В случае с монетами мы говорим, что это биномиальное (двоичное) распределение, это наше убеждение, которое может исходить из знаний в предметной области или выполнения EDA на данных.
  • Как только мы предполагаем распределение, мы выясняем параметры модели этого распределения, которые максимизируют P (D;𝛳).

По сути, это означает, что если мы подставим разные значения для 𝛳, мы получим вероятность наблюдения данных D, поэтому выберите то значение 𝛳, которое дает максимальную вероятность.

Прохладный! Теперь давайте поработаем над тем, как этот MLE поможет нам оценить значения w (параметр модели) в линейной регрессии. Я пропустил термин перехвата, либо мы можем поглотить перехват, добавив одно дополнительное измерение → w → (w,b) и x → (x,1), так что, когда мы делаем wᵗ x → wᵗx + b, ИЛИ мы можем сделать наш нулевые данные означают, что наша линия всегда проходит от начала координат.

Линейная регрессия:

Как вы все знаете, линейная регрессия — это простая модель для прогнозирования непрерывной метки, зависящей от значения, с учетом определенных функций для точки данных после изучения множества наблюдений. Здесь неявно следует предположение, что X и y имеют некоторую линейную зависимость друг от друга. Другими словами, X берется из некоторого линейного распределения, которое дает значение y (исходя из другого распределения). Поставленная задача: найти параметр w для X s.t мы получим точный прогноз (y).

Теперь предположим, что данные взяты из идеальной линии w ᵗ x, проходящей от начала координат. Для каждого x, имеющего d функций, мы рисуем метку y из распределения Гаусса. Смущенный?

Давайте пройдемся по визуальному представлению:

В идеальном случае мы подгоняем линейное (w ᵗ x)s.t каждое значение x точно присутствует в этой строке, дает истинное значение y. Но на самом деле точки данных зашумлены: yᵢ = f(xᵢ) + 𝜖. Нам нужно оценить, какие значения принимает 𝜖 (ошибка) таким образом, чтобы ожидаемое значение y приблизилось к идеальному значению y. В нашем предположении мы говорим, что 𝜖 было получено из распределения Гаусса, имеющего среднее значение 0 и некоторую дисперсию 𝞼², как показано на рисунке выше. ИЛИ, другими словами, мы могли бы сказать: y было получено из распределения Гаусса, имеющего среднее значение как w ᵗ x и дисперсию 𝞼².

Наконец, мы подошли к концу с целью найти: argmax P((x,y|w) [Примечание: мы сделали предположение о линейном распределении, поэтому P(x,y | w )]

Здесь, в строке 5, произведение вероятностей превращается в сумму логарифмических вероятностей, потому что логарифмическая функция является монотонно возрастающей функцией. Таким образом, максимизация P эквивалентна максимизации log (P). Последнее выражение обозначает потерю квадратной ошибки, которая используется в линейной регрессии как мера качества! Дело еще не закончено, мы хотим оценить значение w → Возьмем производную от этого выражения, приравняем к 0 и получим замкнутую форму w, вот и все!

Вывод:

  • MLE находит распределение данных, оценивая лучший выбор параметра после выбора модели.
  • Хорошо работает, когда выборки данных достаточно велики. MLE — это генеративный подход, при котором мы не предсказываем напрямую P(y|X), а изучаем базовое распределение.
  • Мы получили потерю ошибки наименьших квадратов для линейной регрессии с MLE, потому что мы предположили гауссовский процесс и получили закрытую форму w.

Рекомендуемые материалы: