От линейной и логистической регрессии, древовидных алгоритмов и SVM до стандартных нейронных сетей — все они сосредоточены на одном: оптимизации. Их неотъемлемая цель — оптимизировать разрыв между прогнозами и наблюдаемыми данными с помощью старой доброй функции потерь и таких методов, как градиентный спуск, прокладывающих путь.

Но вероятность — это не оптимизация. В самом деле, если мы хотим использовать язык статистики для описания наших моделей с точки зрения их отношений между параметрами, функциями и целью, что мы делаем? Что за хитрость поднимет нашу модель в вероятностную область?

Что ж, оказывается, существует «статистический API», который может предоставить нам некоторые инструменты, чтобы делать именно это (кстати, меня, вероятно, сожгут на костре статистические пуристы за то, что я испортил святую землю этой аналогией 🔥).

Но прежде чем мы доберемся до этого, давайте возьмем линейную регрессию и посмотрим на ее основную цель, когда дело доходит до оптимизации…

Срок ошибки

Член ошибки, ε, математическое воплощение всех остатков, — это то, что функция потерь нашей линейной регрессии фокусируется на минимизации, чтобы она могла оптимизировать разницу между прогнозами и наблюдаемыми данными. Но если мы предположим, что этот член ошибки состоит из остатков, которые не влияют друг на друга и подчиняются одному и тому же статистическому распределению (т. е. они независимы и одинаково распределены(i.i.d )), мы можем начать расширять наши горизонты.

То есть, согласно предположениям i.i.d, мы можем предположить, что член ошибки следует определенному статистическому распределению. В линейной регрессии мы обычно предполагаем гауссово (нормальное) распределение члена ошибки. Это вытекает из центральной предельной теоремы (ЦПТ). То есть, независимо от базового распределения генеральной совокупности, мы знаем через CLT, что если бы мы взяли достаточно большое количество случайных выборок, вычислили среднее значение для каждой и построили эти средние значения, мы увидели бы распределение, сходящееся к гауссову. Точно так же мы можем предположить, что если бы мы рисовали остатки и наносили на график выборочные средние значения ошибок, они сошлись бы на распределении Гаусса, отсюда и его применение.

Получение вероятностного

Теперь, когда мы ограничили член ошибки определенным распределением, мы можем использовать функцию плотности вероятности (PDF) распределения или функцию массы вероятности (PMF) для дискретных результатов. И это ключевой шаг, потому что, как предполагает буква «P» в PDF и PMF, мы, наконец, вводим в игру эти неуловимые вероятности.

Чтобы дать вам некоторое представление об этом, давайте рассмотрим математическое выражение для PDF распределения Гаусса применительно к линейной регрессии:

**(Обратите внимание, см. конец статьи для более подробного изучения этого и его ссылки на обсуждаемый MLE¹)

Основное внимание в приведенном выше уравнении уделяется y —xβ. Чтобы быстро объяснить это, давайте взглянем на обобщенную матричную форму линейной регрессии:

Здесь,

  • y — это то, что мы пытаемся предсказать, наша цель (или переменная ответа)
  • (или ŷ) эффективно выражает процесс суммирования произведения наших функций (или предикторов) с их соответствующими весами плюс точка пересечения, чтобы сделать прогноз y.
  • ε — это наш термин ошибкит.е. все различия между тем, что мы пытаемся предсказать, и нашими предсказаниями.

Из этого мы теперь можем видеть, что бит y — в нашей гауссовской PDF — это просто член ошибки, ε. И это означает, что когда мы строим PDF, его ось x можно интерпретировать как центрированную на нашем прогнозируемом значении, ŷ (xβ), с вариацией вокруг нее по горизонтали, отражающей дисперсию модели, то есть степень ошибки между прогнозируемыми и наблюдаемыми значениями, y . Таким образом, для любого заданного y это позволяет нам вычислить плотность под кривой PDF между ним и ŷ (мы говорим, что y зависит от ŷ). Математически это равносильно вычислению связанного интеграла, который говорит нам о вероятности наблюдения значения в пределах этого диапазона в предполагаемой модели. Конечно, аналогичный процесс существует и для PMF, но поскольку у вас есть дискретная переменная, вы можете найти «массу» путем суммирования, а не интегрирования.

В любом случае, с помощью этого расчета плотности или массы мы можем определить так называемую функцию правдоподобия, которая связана с условной вероятностью P(наблюденные данные | параметры) — где '|' означает "дано". Кроме того, находя значения наших параметров (отрезка, веса и дисперсии), которые максимизируют вероятность наблюдения заданных данных, мы приходим к оценке максимального правдоподобия (MLE).

Краткий обзор

Итак, мы начали с нашей основной цели оптимизации в соответствии с функцией потерь. Добавив несколько отличных предположений — в случае линейной регрессии по отношению к члену ошибки — нам удалось перейти в вероятностное пространство. Пространство, которое благодаря нашему «статистическому API» предоставляет нам функцию правдоподобия, условное P(наблюдаемые данные | параметры),и, соответственно, MLE, который находит значения параметров, которые максимизирует эту вероятность.

Как это аккуратно! 🥳

Раскрыть (невероятно важный) нюанс

«вероятность», условная вероятность, которую мы только что обсудили, принадлежит статистической парадигме/философии, известной как частотность. Под этим я подразумеваю, что частота (отсюда частотность) нашей случайной выборки — это то, что приводит к конвергенции между наблюдаемыми данными и параметрами совокупности — теоретически для обеспечения идеальной конгруэнтности необходимы бесконечные случайные выборки.

например. Подбрасывание монеты

Фреквентистский подход к подбрасыванию справедливой монеты заключается в том, чтобы определить вероятность как вероятность получения наших наблюдаемых данных (случайных выборок некоторого размера) с учетом параметра, скажем, выпадения орла (0,5). Теперь, очевидно, если мы возьмем 10 или 1 миллиард случайных выборок (это будет один утомленный большой палец), мы никогда не сможем гарантировать идеальное разделение 50/50 (нам может повезти, но мы не можем этого гарантировать). Однако частотность говорит нам, что чем больше случайных выборок мы возьмем, тем больше мы увидим, как данные перемещаются в направлении наших параметров (кстати, это свойство известно как Закон больших чисел).

А теперь один из самых важных моментов частотности: наблюдаемые данные — это то, что варьируется/является вероятностным; параметры совокупности фиксированы (независимо от того, известны они или неизвестны).

*Пожалуйста, позвольте нюансу этого последнего предложения действительно проникнуть, если это для вас ново.

Следовательно, когда мы имеем дело с функцией правдоподобия или частотностью в целом, мы не можем говорить или количественно определять уровень неопределенности нашего алгоритма в его параметрах, потому что, по сути, они высечены в камне, поэтому для них существуют вероятности.

Но что нам делать, если нам нужно получить вероятностное представление о параметрах нашей модели?

Для следующего трюка нашего API…

К счастью, наш «статистический API» на этом не заканчивается. Благодаря теореме Байеса он предоставляет нам именно ту вероятность, которую мы хотим. Далее следует красивая связь между нашим алгоритмом, частотностью, и другой крупной статистической парадигмой/философией, байесовством:

***(Обратите внимание, приведенное выше является упрощением, см. конец статьи, если вас интересует полная форма уравнения²)

Конечно, первая вероятность в числителе — это вероятность, наша условная вероятность Frequentist.

P(параметры) известен как «приоритет». Априорные значения относятся к байесовской статистике и представляют наши ранее существовавшие представления о параметрах. Очевидно, что такие убеждения, как «Мэттью нужно больше гулять😆», — это не вероятности, это просто набор слов. Вот почему, как и в случае с нашей функцией потерь, нам нужно выразить их, используя статистическое распределение (гауссовское, биномиальное, бета, экспоненциальное и т. д.), исходя из того, какое из них мы считаем наиболее подходящим. Затем этот шаг позволяет нам описать их вероятностно (вы, вероятно, уже видите закономерность).

P (наблюдаемые данные) известен как «доказательство» или «предельная вероятность». Это вероятность наблюдаемых данных с учетом признаков (предикторов), интегрированных по всему пространству параметров.

Математически свидетельство служит нормализующей константой для числителя, поэтому условная вероятность может быть выражена в виде действительного распределения вероятностей. На самом деле, это очень сложный зверь для точного расчета. Это быстро превращается из вычислительного кошмара в неразрешимое по мере увеличения размерности пространства параметров, в основном для каждого параметра, который мы добавляем, мы вкладываем интеграл в другой😱 К счастью, вместо этого доступны различные умные обходные пути для его оценки — Марковская цепь Монте-Карло (MCMC ) является распространенным примером. Я также должен упомянуть здесь, что если распределение для нашего априорного распределения происходит из того же семейства, что и распределение для вероятности, то мы можем иметь «сопряженное априорное», а математические расчеты таковы, что предельное правдоподобие может игнорировать — удобно! К сожалению, многие сценарии реального мира не поддаются легкому сопряжению априорных значений.

В любом случае, давайте перейдем к оставшемуся компоненту уравнения, потому что именно здесь происходит волшебство.

Байесовский та-да✨

Помните, мы хотели найти способ описать/количественно оценить уровень неопределенности нашего алгоритма в параметрах с учетом пределов частотности? Что ж, в клубе дыма оказалось. P(параметры | наблюдаемые данные), широко известный как «апостериорный», делает именно это!

То есть, учитывая его байесовский характер, он рассматривает наблюдаемые данные как фиксированные, а параметры как переменные/вероятностные. Кроме того, он отходит от частотного подхода к частоте случайной выборки. Вместо этого используется итеративный подход, который признает две вещи: во-первых, наши представления о мире определяют, насколько вероятным, по нашему мнению, что-то будет; во-вторых, когда мы сталкиваемся с новыми данными, мы соответствующим образом обновляем наши убеждения.

Конечно, вы можете видеть, как апостериорное включение убеждений происходит через априорное. И именно по этой причине байесовское моделирование позволяет нам использовать существующие знания/опыт в предметной области. Здесь следует отметить, что некоторые люди утверждают, что это вносит элемент субъективности, который может быть проблематичным. Но, тем не менее, поскольку байесовское моделирование не зависит от принципа большого количества случайных выборок, если у вас есть информативная априорная информация и очень мало данных для работы, этот подход может быть особенно хорошим выбором.

Круто прямо!

Частотный и байесовский подходы

Часто эти две парадигмы противопоставляются друг другу, и некоторые люди предпочитают активно отождествлять себя с одной или другой. Лично я вижу плюсы и минусы в каждом и место для обоих с точки зрения того, что они могут делать и говорить — я надеюсь, что эта статья дала небольшое представление об этом.

Жизненно важно, чтобы нюансы между ними были правильно поняты; в противном случае проблемы могут быстро подняться. На этом примечании и в качестве последнего примера я даю вам Frequentist 'cуровень достоверности' и 'cинтервал достоверности', а также байесовский 'c допустимый интервал'.

Первый широко используется и благодаря нашему «статистическому API» становится еще одним инструментом, связанным с вероятностью, для описания нашей модели. Но его определение требует точности:

Для данного уровня достоверности x% мы можем сказать, что при большом количестве повторяющихся случайных выборок вероятность доверительных интервалов, содержащих фиксированный параметр генеральной совокупности, покажет сходимость на x/100.

Как вы заметите, это определение формулирует фреквентистскую идею большого количества случайных выборок, которые, будучи теоретически бесконечными, давали бы идеальную сходимость с параметром генеральной совокупности. Кроме того, через доверительный интервал он подчеркивает вероятность с точки зрения наблюдаемых данных, а не фиксированных параметров.

Кстати, будьте осторожны, чтобы не попасть в ловушку неправильного приписывания уровня достоверности заданному доверительному интервалу — уровень достоверности относится ко всемслучайным выборкам.

Сравните это с определением байесовского правдоподобного интервала:

Основываясь на данных и предыдущих предположениях, существует вероятность x%, что параметр совокупности находится в пределах интервала.

Обратите внимание, нет упоминания о повторной выборке. Кроме того, мы включаем предварительные знания и на этот раз говорим о вероятности того, что параметр (вероятностный) находится в пределах заданного интервала (фиксированного), а не в нескольких интервалах.

В любом случае, я просто хотел подчеркнуть эти различия, чтобы их можно было оценить.

Завершение этого API

Так что у нас это. Наш «статистический API» связал наш алгоритм оптимизации со статистической областью. Он предоставил мощные инструменты Frequentist и Bayesian, которые позволяют нам описывать наблюдаемые данные и параметры нашей модели нюансированными вероятностными способами. И все это без запроса «GET»!

(Обратите внимание: если вам нужна более подробная статья о чем-либо, представленном здесь, или о других темах, сообщите мне об этом.)

[1] Функция правдоподобия для MLE (применительно к линейной регрессии):

Здесь связь выражена между функцией правдоподобия (L) и уравнением PDF с условием, что член ошибки следует гауссовскому распределению, сделанному явным образом.

Чтобы найти параметры θ, которые максимизируют вероятность в соответствии с MLE, мы начинаем с произведения вероятностей по всей PDF (что разрешено только потому, что у нас есть независимость в соответствии с нашим предположением i.i.d члена ошибки). Это находит совместную вероятность, то есть вероятность всех наблюдаемых данных:

Для упрощения мы можем взять натуральный логарифм:

Теперь мы можем взять частные производные логарифмической функции правдоподобия по каждому параметру в пространстве параметров, которым для линейной регрессии является точка пересечения, веса и дисперсия.

Например. Частная производная по β устанавливается равной нулю для расчета оптимального значения по отношению к MLE:

Конечно, на данный момент это только определение поворотного момента для β. Чтобы установить, является ли оно максимальным, нам пришлось бы исследовать соответствующую матрицу Гессе. При этом используются старые добрые собственные векторы для определения направления кривизны в векторном пространстве, а соответствующие собственные значения указывают характер кривизны своим знаком (отрицательное = максимальное, смешанное отрицательное и положительное = седло, положительное = минимум).

(Обновление: кто-то хотел, чтобы я расширил этот последний пункт, поэтому я кратко)

Вторая частная производная для функции логарифмического правдоподобия относительно транспонирования β и β равна:

Однако, чтобы построить соответствующую матрицу Гессе, вы обычно вычисляете вторую частную производную по отношению к каждому члену в векторе β. К счастью, в этом сценарии все эти производные будут в той же форме, что и выше, и, поскольку нет никаких взаимозависимостей, любезно предоставленных нашим i.i.d. предположение, что все недиагональные значения в матрице будут равны нулю:

Теперь, учитывая, что у нас есть диагональная матрица, собственные значения — это просто значения на диагонали. И, учитывая, что мы эффективно умножаем каждый элемент матрицы «x» сам по себе, у нас всегда будет положительное число, полученное суммированием, которое, в свою очередь, всегда будет отрицательным константой. Следовательно, каждое собственное значение отрицательно, что подразумевает вогнутость и что мы действительно нашли максимум! Я знаю, что это немного сложно, но, по крайней мере, стоит иметь представление об используемых концепциях.

[2] Теорема Байеса для линейной регрессии:

Y = наблюдаемые данные, X = пространство признаков (предикторы) и θ = пространство параметров (включая точку пересечения, веса и дисперсию).

Где, например, P(θ|X,Y) читается как вероятность параметров с учетом совместной вероятности пространства признаков и наблюдаемых данных.

Эта версия уравнения более четко описывает взаимосвязь между наблюдаемыми значениями, пространством признаков и параметрами. Более того, мы видим, как «доказательство» включает в себя вычисление интеграла по всему пространству параметров для произведения вероятности и априорной вероятности (которое, следует отметить, является просто совместной вероятностью Y, θ и X, частично расширенной по цепному правилу).

Дополнительные материалы на PlainEnglish.io.

Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord .