Статистическая теория обучения

Учебник по встраиванию слов

Статистическая теория обучения

Основа для нейронных сетей

В этой статье мы рассмотрим, как работает линейная статистическая модель, как ее можно обобщить в модель классификации и как можно использовать машинное обучение с использованием простой нейронной сети для определения коэффициентов для этих моделей.

В предыдущей статье, Слова в векторах, мы увидели, как данные о распределении слов для корпуса могут быть сведены в таблицу в матрице, повторно взвешены для увеличения ценности информации, предоставляемой для конкретного приложения, и размерно сокращено, чтобы сократить длину вектора слова. Мы также рассмотрели меры расстояния для сравнения векторов слов.

Джонсон называет эти подходы, основанные на подсчете, «статистической революцией» в НЛП (Johnson, 2009). Но статистическая революция на этом не закончилась. По мере развития методов машинного обучения и искусственного интеллекта и роста вычислительной мощности расширялись возможности применения концепций статистического обучения в НЛП.

Прежде чем мы рассмотрим метод машинного обучения, используемый Word2vec, в следующей статье этой серии, Классификатор Word2vec, мы сначала рассмотрим, как статистика применяется к машинному обучению, и установим номенклатуру для машинного обучения. Машинное обучение основано на статистической теории обучения (Stewart, 2019), но терминология машинного обучения может сильно отличаться от терминологии статистики.

Статистика и машинное обучение

Статистика — это математическое изучение данных. Используя статистику, создается интерпретируемая статистическая модель для описания данных, и эту модель затем можно использовать для вывода о данных или даже для прогнозирования значений, которых нет в выборке данных, использованной для создания модели. «Точность» прогноза не является целью статистики.

Машинное обучение, с другой стороны, касается результатов. Он использует данные и статистическую математику в первую очередь из-за их предсказательной силы. В машинном обучении больше внимания уделяется результатам, чем интерпретируемости модели. Часто базовая статистическая модель считается нерелевантной (то есть «черным ящиком») до тех пор, пока прогностические результаты полезны. Как говорит Домингос (2012), «системы машинного обучения автоматически изучают программы на основе данных».

Поскольку машинное обучение способно моделировать данные, задача состоит в том, чтобы избежать переобучения (Rojas, 1996). Модель должна работать достаточно хорошо, чтобы давать точные прогнозы, но при этом не быть настолько специально адаптированной к выборочным данным, чтобы модель плохо прогнозировала новые данные.

Чтобы избежать переобучения данных с помощью методов машинного обучения, а часто и в статистике, наблюдаемый набор данных тестируется путем выделения части данных (называемой тестовым набором). ), чтобы подтвердить надежность модели, построенной на основе большинства данных (известной как обучающая выборка). Часто проверочный набор в обучающем наборе используется для определения достоверности прогностической модели до того, как она будет подтверждена на тестовом наборе данных.

Стюарт резюмирует различные подходы, используемые машинным обучением и статистикой, следующим образом:

Должно быть ясно, что эти два подхода различны по своей цели, несмотря на то, что для ее достижения используются схожие средства. При оценке алгоритма машинного обучения используется тестовый набор для проверки его точности. Принимая во внимание, что для статистической модели анализ параметров регрессии с помощью доверительных интервалов, тестов значимости и других тестов может использоваться для оценки законности модели. (Стюарт, 2019)

Неглубокая нейронная сеть Word2vec и конкретный алгоритм обучения будут обсуждаться в четвертой статье этой серии Классификатор Word2vec. Чтобы понять концепции и термины машинного обучения и нейронных сетей с точки зрения статистики, мы рассмотрим, как выполняется линейная регрессия с использованием машинного обучения и как этот процесс применяется к логистической регрессии с использованием нейронной сети.

Линейная регрессия в статистике

Для линейной регрессии статистических данных с несколькими предикторами давайте начнем с линейного уравнения, представляющего отношение между y=(yᵢ) и X. =(xᵢⱼ):

где yᵢ — зависимая переменная отклика, а xᵢⱼ — наблюдаемые значения каждой независимой переменной j, из которых p для каждой статистической единицы i, которых n. Термин ошибки: εᵢ. Предикторами являются βⱼ, из которых p+1.

Вот представление линейных данных при наличии одной прогнозирующей переменной (p=1).

Мы также можем использовать векторы и матрицы для представления линейного уравнения. Вектор y = (y₁,…,yᵢ,…,yₙ)⊤ представляет значения, взятые переменная ответа. X размерности n×(p+1) — это матрица значений предиктора xᵢⱼ с первым столбцом определяется как константа, означающая, что xᵢ₀ ≔ 1.

Представление линейного уравнения с векторами и матрицами дает нам:

Для линейной регрессии y по X с вектором ошибок ε вектор коэффициентов β получается путем минимизации суммы квадратов остатков или ошибок:

Или в векторной и матричной форме:

Взяв частные производные по вектору β, а затем приравняв их к нулю, получим минимальное значение для β, который мы назовем β^ₒₗₛ, поскольку мы используем обычный метод наименьших квадратов (OLS) для получения оценки для β:

При этом значении β является истинным минимумом, поскольку матрица Гессе вторых производных определенно положительна.

Из β^ₒₗₛ мы можем предсказать y, ŷ, используя следующее уравнение:

Статистики используют приведенные выше геометрические производные при исследовании линейной статистической модели, модели, которая тестируется перед тем, как ее использовать для прогнозирования. Пример базовой модели (Tillé, 2019):

где эта модель формализуется следующим образом:

y — вектор констант n наблюдаемых результатов.
X — это матрица n×(p+1) полного ранга неслучайных констант, содержащая наблюдаемые независимые данные, xᵢⱼ с добавлением первого столбца из 1 с
β – это вектор неизвестных коэффициентов (то есть оценок) в ℝ⁽ᵖ ⁺¹⁾
ε – это вектор размера n, содержащий неизвестные случайные величины или условия ошибки, εᵢ

Типичные гипотезы модели следующие:

Матрица X не случайна и имеет полный ранг. Если матрица X не имеет полного ранга, то по крайней мере один из столбцов матрицы (то есть ковариат) может быть записан как линейная комбинация других столбцов, что предполагает пересмотр данные
Математическое ожидание членов ошибки равно нулю: 𝔼(ε) = 0
Дисперсия членов ошибок постоянна: Var(εᵢ) = σ² для всех i, то есть гомоскедастична.
Ковариация ошибок равна нулю: Cov(εᵢ,εⱼ) = 0 для всех i≠j

Теорема Гаусса-Маркова утверждает, что для этой модели с членами ошибки нормального распределения оценка, полученная методом наименьших квадратов для β, является наилучшей линейной несмещенной оценкой. Итак, мы получаем:

Затем можно сделать прогноз для нового набора независимых переменных xₖ:

После тестирования, чтобы убедиться, что модель соответствует данным, статистическая теория затем определяет другие важные значения, такие как доверительные интервалы для дисперсии оценок и интервалы прогнозирования для прогнозов модели.

Логистическая регрессия в статистике

Мы можем обобщить вышеприведенную линейную статистическую модель с нормальными (гауссовыми) членами ошибки посредством математических преобразований в обобщенную линейную модель (GLM) в статистике, что позволяет использовать регрессию, оценочные тесты и анализ экспоненциального семейства условных распределений y задано X, например, биномиальное, полиномиальное, экспоненциальное, гамма и пуассоновское.

Параметры оцениваются с использованием метода максимальной вероятности. Для логистической регрессии, когда есть биномиальный ответ, y∈ {0,1}, логистическая функция определяет вероятность успешного исхода, 𝜋 = P (y=1|x), где x — вектор наблюдаемых прогностических переменных, из которых п. Если β — это вектор неизвестных предикторов, из которых p+1, и с использованием z = xβ, затем (Matei, 2019):

Мы можем применить эту функцию через логарифмические шансы или логит к линейной модели следующим образом:

где 𝜋ᵢ = P(yᵢ=1|xᵢ) и xᵢ – это i-й наблюдаемый результат, из которых n. Приведенная выше логистическая функция позволяет нам применить теорию линейной регрессии к вероятности предсказания успешного исхода от 0 до 1. С помощью этой модели можно применять статистические тесты и показатели данных, такие как отклонение, показатели согласия, тест Вальда и статистика Пирсона 𝜒².

Машинное обучение имеет свою собственную номенклатуру для этих уравнений, как мы увидим в следующем разделе.

Линейная регрессия с использованием машинного обучения

С точки зрения машинного обучения прогностические модели считаются слишком сложными или требующими больших вычислительных ресурсов, чтобы их можно было решить математически. Вместо этого для получения решения выполняются очень маленькие шаги по порциям данных, которые итеративно циклически повторяются.

Мы рассмотрим решение линейной регрессии с использованием машинного обучения. Однако прежде чем мы продолжим, важно сначала понять, что в машинном обучении решаемая функция обычно не определена заранее. В нашем случае мы уже знаем, что хотим выполнить только линейную регрессию, но обычно в машинном обучении различные модели (или функции) данных сравниваются до тех пор, пока не будет найден лучший компромисс между слишком общим и неточным, с одной стороны. стороны, а переоснащение данных, с другой стороны, находится эмпирически.

В случае решения для линейной регрессии с использованием машинного обучения мы хотим найти коэффициенты регрессии для полного набора данных, поэтому мы начинаем с тех же наблюдаемых данных X и y. определено в модели линейной регрессии в разделе выше.

Минимизируемая целевая функция — это обычный метод наименьших квадратов остатков, который мы будем использовать в алгоритме машинного обучения в качестве функции потерь, L, которую чаще называют функция стоимости, J(θ), где θ представляет оптимизируемые значения параметров. Для линейной регрессии значения параметра θ являются значениями вектора β.

Обратите внимание, что в машинном обучении для нормализации и сравнения моделей обычно минимизируется среднеквадратическая ошибка, которая составляет 1/n от суммы полученных нами значений квадратов ошибок. в предыдущем разделе. Для нашего случая линейной регрессии мы продолжим с суммой квадратов значений ошибки, отметив, что константа 1/n не повлияет на предсказанное β , поэтому ими можно пренебречь (Aggarwal, 2018):

Взяв производную функции потерь и приравняв ее к нулю, мы получим значения коэффициентов, но мы будем выполнять вычисления пошагово, по одному расчету для каждого экземпляра обучения, поскольку алгоритм машинного обучения будет проходить через данные несколько раз.

Чтобы найти направление пошаговых обновлений, мы возьмем производную функции потерь и используем это направление, чтобы сдвинуть наше обучение на шаг к минимуму:

Этот процесс известен как градиентный спуск, а 𝛼 определяет длину маленького шага, который является скоростью обучения.

В машинном обучении мы рассматриваем обучение парами (x₁,y₁)…(xₙ,yₙ), и мы многократно обновляем каждую пару при оптимизации θ. Давайте посмотрим на производную квадрата ошибки для каждого обучающего экземпляра:

Это уравнение дает нам направление, в котором следует перемещать значения β, также известные как веса, к их минимуму. Константу 2 обычно игнорируют, поскольку она не влияет на оптимальные значения β (Ng, 2018). Таким образом, в нашем случае для каждого m-го обучающего экземпляра β обновляется следующим образом:

Мы начинаем процесс обучения, устанавливая случайные значения для каждого значения веса β и запускаем алгоритм. Скорость обучения 𝛼 должна быть установлена таким образом, чтобы продвижение к минимуму функции потерь было достаточно быстрым, без перерегулирования и невозможности достижения минимума. Часто применяется динамическая скорость обучения, при которой 𝛼 уменьшается по мере приближения функции к минимуму.

Предполагая поддержку хорошей скорости обучения, этот алгоритм машинного обучения будет вычислять значения коэффициентов β с необходимой точностью, достигая тех же значений, которые были получены математически в разделе выше. .

Логистическая регрессия с нейронной сетью

Идея нейронных сетей возникла из представления о том, как работают нейроны у живых животных: нервный сигнал либо усиливается, либо ослабляется каждым нейроном, через который проходит сигнал, и представляет собой сумму нескольких нейронов, последовательно и параллельно, каждый из которых фильтрует несколько нейронов. входы и подача этого сигнала на дополнительные нейроны, чтобы в конечном итоге обеспечить желаемый результат. Нейронная сеть с прямой связью — это простейшая форма нейронной сети, в которой вычисления выполняются только в прямом направлении, от входа к выходу.

Нейронные сети позволяют использовать несколько слоев нейронов, где каждый слой выполняет определенные функции. Однако простая нейронная сеть линейной регрессии может быть построена с одним слоем нейронов, работающих линейно.

На рисунке ниже показана структура простой нейронной сети с прямой связью, которая обеспечивает логистическую регрессию:

В простой нейронной сети с прямой связью для классификации веса wⱼ и термин «смещения» w₀ представляют коэффициенты β из метода линейной регрессии и обучаются сетью с использованием ошибки (ε), как показано на рисунке.

Общая функция нейронной сети принимает следующий вид (Bishop, 2006):

где f(·) — нелинейная функция активации, а φⱼ(x) — базисная функция . Базисная функция может преобразовывать входные данные x до определения весов w. В случае логистической регрессии базовая функция устанавливается равной 1, чтобы входные данные оставались линейными.

Функция активации f(·) также устанавливается равной 1 для линейной регрессии. Однако при логистической регрессии требуется специальная функция активации для преобразования выходных данных линейно определенных весов в прогнозируемую вероятность биномиального ответа, 0 или 1. Функция активации — это сигмоидальная функция, которая эквивалентна логистической функции, определенной для логистической регрессии для статистики. Сигмовидная функция, в отличие от логистической функции 𝜋(z), математически преобразуется, чтобы иметь только один показатель степени для упрощения программирования, как показано в следующем уравнении:

где z = xβ. Сигмовидная функция активации обеспечивает вероятность предсказания.

Однако в машинном обучении в более общем плане нелинейная функция используется, когда нам не нужно получать линейную вероятность для прогноза. В этом случае могут быть протестированы различные функции активации.

Чтобы выполнить обучение для установки весов w для каждого шага, алгоритм нейронной сети вычисляет значение ошибки, которое представляет собой разницу между рассчитанным прогнозом и фактическим результатом. Используя обратное распространение, веса обновляются в соответствии со скоростью обучения.

Подробнее об обратном распространении мы поговорим в следующей статье этой серии.

Полиномиальная логистическая регрессия

Ранее мыиспользовали обобщенную линейную модель в статистике, чтобы расширить линейную регрессию до логистической регрессии для биномиального ответа. Мы можем сделать аналогичное преобразование для ситуаций, когда ответ полиномиальный, т. е. мультиклассовый. Ключевое отличие состоит в том, что вместо использования сигмовидной функции активации для обеспечения вероятности прогноза используется функция softmax.

где z = xβ и K — количество классов.

Модель нейронной сети для полиномиальной логистической регрессии работает аналогично бинарной логистической регрессии. Функция softmax требует больше вычислительных ресурсов, чем сигмовидная функция.

Нелинейные приложения нейронных сетей

Как упоминалось ранее, обобщенная линейная модель (GLM) в статистике допускает регрессию экспоненциального семейства биномиальных и полиномиальных распределений, предоставляя доверительные интервалы прогнозирования и другие статистические тесты, основанные на теории.

Но как получить доверительные интервалы для прогнозов и другую статистику, если нейронная сеть обобщается для нелинейного прогнозирования? В этой ситуации могут применяться вычислительные методы, включая начальную загрузку, складной нож и перекрестную проверку (Rojas, 1996).

Краткое содержание

В этой статье мы узнали, как можно обобщить линейную регрессию для прогнозирования бинарного или мультиклассового ответа, и узнали, как можно использовать машинное обучение для предоставления параметров прогнозирования на примере неглубокой нейронной сети.

Мы также узнали, что машинное обучение чаще используется для автоматического поиска наилучшей функции (обычно нелинейной) для прогнозирования выходных данных, тогда как статистика обычно пытается проверить (обычно более простую) модель данных и использует эту модель для прогнозирования.

В следующей статье Классификатор Word2vec мы рассмотрим, как Word2vec использует эти концепции для обучения внедрению слов.

Дополнительные сведения по этой теме. Я рекомендую для получения дополнительных сведений об основах машинного обучения этот онлайн-курс по информатике в Стэнфордском университете: Ng, A. (2018). Машинное обучение CS229.

Статистическая теория обучения

Учебник по встраиванию слов