Машинное обучение необходимо для глубокого обучения

Обобщение, емкость, параметры, гиперпараметры и байесовская статистика

В предыдущей статье мы немного коснулись обобщения.

Машинное обучение необходимо для глубокого обучения
Чтобы понять нейронные сети прямого распространения, вы должны хорошо разбираться в трюке с ядром. Ядро… todatascience.com

В общем, эта статья познакомит со всеми темами, которые необходимы для понимания и ответа на вопрос:

Какая связь между ошибкой обобщения и ошибкой обучения?

Краткое освежение

Обобщение - это концепция алгоритма машинного обучения, способного давать хорошие прогнозы на ранее невидимых входных данных.

Красная линия представляет ошибку обучения. Если по горизонтальной оси отложено количество обучающих примеров или время, в зависимости от того, как вы хотите об этом думать, то со временем эта обучающая ошибка становится все меньше и меньше.

Однако при этом возникает проблема переобучения: алгоритм машинного обучения настолько хорошо изучает обучающую выборку, что не может хорошо обобщаться на новые данные.

Желтая линия представляет ошибку теста или обобщения. Вы заметите, что разница между красным и желтым увеличивается с увеличением количества данных.

Примерно в этой точке перегиба мы и хотим быть. Важный вопрос: как нам контролировать алгоритм, чтобы добраться до этой области?

Мы поворачиваем циферблат на Емкость алгоритма обучения.

Когда модель имеет низкую емкость, она не сможет объяснить истинную ситуацию, она не может соответствовать, она не может получить достаточно низкую ошибку обучения, она имеет тенденцию не соответствовать.

Когда модель обладает высокой емкостью, она сможет объяснить истинную ситуацию, однако она может увидеть закономерности там, где их нет. Поскольку мы всегда предполагаем наличие какого-то шума в нашем сигнале, он может интерпретировать этот шум как сигнал. Здесь алгоритм обучения будет переобучаться, поэтому ошибка обобщения будет слишком большой.

Каковы некоторые примеры возможностей алгоритма обучения?

Пространство гипотез - одна из таких метафорических шкал, которыми вы можете управлять, чтобы получить от алгоритма желаемое. Для линейной регрессии, учитывая набор точек данных, мы пытаемся провести линию наилучшего соответствия. Здесь наше пространство гипотез равно 1.

Для любого вида изогнутой линии наилучшего соответствия, например полинома, где нам нужны 2 набора координат для объяснения вывода, у нас будет пространство гипотез, равное 2.

Здесь важно дать другой способ интерпретации пространства гипотез. Вы можете думать о пространстве гипотез как о множестве всех возможных результатов. Рассмотрим многочлен:

Мы знаем, что его диапазон больше 0, а домен - это набор всех действительных чисел. Нам в буквальном смысле не нужна половина плоскости. Хотя мы знаем, что, поскольку мы используем функцию, которая существует на плоскости, мы по-прежнему делаем вид, что наше пространство гипотез равно 2. Плюс во время выбора нашей функции мы не знаем реального пространства или формы реальных данных. генерирующий процесс. Даже если бы мы знали, что это квадрат x, мы не знали бы его местонахождение.

Это касается любой функции в:

Более того, это распространяется на все измерения ...

Следующий тип емкости - это Репрезентативная емкость внутри плоскости:

У вас по-прежнему есть выбор для моделирования отношений с помощью многочленов, тригонометрических функций, журналов, показателей и т. Д. Это семейство функций, которое вы можете выбрать, называется репрезентативной емкостью.

Итак, в общем, емкость - это то, насколько сложную взаимосвязь может моделировать ваш алгоритм. Это примерно измеряется количеством принимаемых параметров.

На практике большинство алгоритмов на самом деле не пытаются найти математическую функцию, которая лучше всего подходит для данных, вместо этого она просто минимизирует ошибку.

Ошибка Байеса

Назовите это ошибкой измерения или шумом, всегда есть некоторый диапазон случайных ошибок, когда вы работаете с реальными данными. Допустим, вы точно знали, какая математическая функция генерировала процесс генерации данных или распределение вероятностей. Если вы используете эту функцию для обработки входных данных и получения набора прогнозируемых значений:

и сравните с настоящими этикетками:

Будет несоответствие, эта ошибка является неснижаемой, то есть от нее никогда не избавиться. Это мы называем ошибкой Байеса.

Другие обобщения

Обычно это правда:

Больше примеров обучения означает меньшую ошибку обучения
Даже в золотой зоне, где нет недостаточной подгонки или переобучения, все еще существует несоответствие между ошибкой обучения и ошибкой обобщения.
Ошибка обучения всегда меньше ошибки обобщения.
Золотая область - это область, где существует оптимальная емкость, обычно сложность вашей модели соответствует сложности реального процесса генерации данных.

Регуляризация

Но сначала немного теории. Теорема без бесплатного обеда в поиске и оптимизации утверждает, что для некоторых типов математических задач поиск решения, усредненного по всем задачам в классе, одинаков для любого метода решения.

Представьте себе бесконечный набор проблем, представленных этим случайным графом из точек. Теперь красный и желтый представляют два разных подхода к решению проблем. Если вы усредните расстояние между проблемами и желтой линией, вы получите, скажем, значение альфа.

Теперь вы делаете то же самое с красной линией, находите все расстояния между красной линией и точкой, усредняете эти значения и получаете бета.

Теорема NFL утверждает, что эти значения примерно одинаковы. По крайней мере, так я могу описать это визуально. Это полезно, потому что мы можем рассматривать линии как два разных алгоритма машинного обучения. В поддомене машинного обучения это в основном говорит о том, что ни один алгоритм машинного обучения не является лучшим универсальным решением для всех задач, чем другие алгоритмы машинного обучения.

Это просто зависит от проблемы.

Для меня это означает, что исследование машинного обучения не может сводиться к поиску единственного лучшего алгоритма. Возможно, поиск лучшего алгоритма для набора проблем может быть подходящим подходом. И задача исследователя состоять в том, чтобы действительно хорошо подобрать набор проблем.

Возвращаясь к регуляризации, как и ко многим другим терминам машинного обучения, определение очень расплывчатое. Мы говорим, что любая попытка уменьшить ошибку обобщения, не затрагивая ошибку обучения, является попыткой регуляризации.

Такие подходы, как выбор пространства гипотез и / или ограничение семейства функций, - отличные способы регуляризации, какие еще есть подходы?

Мы можем встроить настройки, предпочтения - это когда у вас есть 2 семейства функций для тестирования, и одно из них выбрано по умолчанию, однако можно выбрать второе, если оно превосходит первое по показателям производительности. .

Одним из типов регуляризатора является штрафной коэффициент, который обозначается следующим образом:

Если мы поставим перед ним вес и включим его как часть функции стоимости, мы можем использовать этот термин, чтобы контролировать, насколько чувствительно выражение к меньшим точкам данных:

Большая лямбда заставляет веса уменьшаться
Маленькая лямбда заставляет веса становиться большими, что означает, что она не ухудшает функцию стоимости, конечный результат - это то, что может
Где-то посередине вы можете получить соответствующий уровень чувствительности к весам.

Гиперпараметры

Мы используем эти метафорические циферблаты и ручки для управления и оптимизации наших алгоритмов машинного обучения. Эти циферблаты и ручки на самом деле часто являются просто выражениями, входящими в каждую часть уравнения. Некоторые из них являются заученными значениями, то есть с каждой итерацией мы немного корректируем их, чтобы они лучше приближались к нашему реальному процессу генерации данных.

Гиперпараметры - это неизученные переменные, которые мы можем использовать для настройки алгоритма.

Вот несколько примеров:

Значение лямбда из приведенной выше функции стоимости никоим образом не узнается, мы просто устанавливаем его в какой-то момент.
В полиномиальной регрессии степень установленного нами полинома будет гиперпараметром емкости

Технически мы можем превратить гиперпараметры в изученный параметр, однако это привело бы к оптимизации этих значений, которые всегда были бы избыточными, они максимизировались бы на обучающих данных, и это плохо переводится на ошибку обобщения.

Боковое примечание об ошибках обучения

Мы можем разделить наши доступные данные на обучающие и тестовые наборы. Но как это распределить?

Кажется, что важно быть уверенным, что ваш алгоритм хорошо работает в мире. Лучший способ достичь такого уровня психологической уверенности - это получить хорошие результаты на тестовом наборе. И лучший способ определить это - иметь хорошую статистическую достоверность результатов теста. Общее практическое правило: чем больше ваш набор данных, тем больше в него уверенности.

Так что на самом деле не имеет значения, какой процент приходится на каждый, эвристика номер один, которую вы должны использовать, - это абсолютный размер тестового набора, если он большой, вы можете даже иметь от 5 до 10% в качестве тестового набора.

В случае сомнений поэкспериментируйте с другим значением и попытайтесь понять, что в ваших данных дает такое соотношение.

Еще одна интересная вещь, которую вы можете сделать, - это разделить тестовый набор на неперекрывающиеся разделы и получить в них ошибки. Затем усредните частоту ошибок, чтобы получить окончательную частоту ошибок. Примерно так, как GPS берет среднее значение измерений спутников, к которым он подключен, чтобы улучшить свое местоположение.

Это называется алгоритмом перекрестной проверки K-Fold, подробнее об этом позже.

Байесовская статистика

Грубая идея частотной статистики состоит в том, что вероятность рассматривается как долгосрочная частота возникновения события. В то время как байесовская статистика рассматривает вероятность как степень веры или степени логической поддержки.

Вы можете думать об этом так: частотные специалисты имеют более узкое определение вероятности и не связывают вероятности с гипотезами или какими-либо фиксированными, но неизвестными значениями. Здесь частотники считают истинное значение параметра фиксированным, но неизвестным, поэтому он не может присвоить ему вероятности, в то время как точечная оценка является случайной величиной, поскольку она является функцией набора данных.

В то время как байесовцы имеют более слабое определение, они думают о вероятности как о более общем понятии, они используют его для отражения степени достоверности состояний знания. В отличие от частотников, байесовцы считают истинный параметр неизвестным / неопределенным, следовательно, случайной величиной.

Перед наблюдением за данными мы представляем наши знания об истинном параметре, используя априорное распределение вероятностей, априорное. Как правило, специалист по машинному обучению выбирает априорное распределение с высокой энтропией, чтобы отразить высокую степень неопределенности относительно истинного параметра.

Например, они могут априори предположить, что истинный параметр находится в некотором конечном диапазоне или объеме с равномерным распределением.

Теперь представьте, что у нас есть набор образцов данных:

… Чтобы представить влияние данных на нашу веру в истинный параметр:

Априорное распределение начинается с однородного или гауссовского распределения, и наблюдение за данными обычно приводит к тому, что апостериорное распределение теряет энтропию и концентрируется вокруг нескольких весьма вероятных значений параметров.

Здесь мы называем p (theta) предшествующим
И p (theta | data) в качестве апостериорного
Знаменатель как доказательство
P (данные | тета) как вероятность

При частотном подходе мы используем максимальное правдоподобие для точечной оценки истинного параметра.

В рамках байесовского подхода мы делаем прогнозы, используя полное распределение по истинному параметру.

При частотном подходе мы приняли во внимание неопределенность нашей оценки с использованием дисперсии.

В рамках байесовского подхода мы делаем это путем интегрирования по нему.

Таким образом, байесовский подход дает лучшую точность при меньших выборках данных, но высокие вычислительные затраты при увеличении набора данных.

Байесовская линейная регрессия

Выполняя линейную регрессию с помощью байесовского подхода, вы получаете одну вещь, которой нет при частотном подходе. Ковариационная матрица, показывающая, насколько вероятно каждое из значений w.

Максимум апостериори, оценка MAP

Одним из недостатков интеграционного подхода является то, что для многих распределений его трудно вычислить, поэтому мы снова прибегаем к точечной оценке. Однако мы можем использовать априор, чтобы повлиять на нашу точечную оценку.

Одним из таких способов является точечная оценка Maximum a Posteriori, MAP. Эта оценка выбирает точку максимальной апостериорной вероятности или максимальной плотности вероятности для непрерывных параметров:

Тогда MAP байесовский вывод с гауссовским априорном для весов соответствует убыванию веса.

MAP Байесовский метод хорош, потому что он вводит информацию из предыдущего, которая не найдена в обучающем наборе, это помогает уменьшить дисперсию. Но, как и во всем остальном, мы жертвуем этим на дополнительную предвзятость.

Следующий…

Анализ основных компонентов
От вывода к алгоритму и использованию в сторонуdatascience.com

Я нашел лучший способ разбить эти статьи. Я представлю полные алгоритмы в статье, а затем при необходимости объясню различные концепции. Я думаю, что сначала сделаю анализ основных компонентов. Если вы хотите, чтобы я написал еще одну статью, подробно объясняющую тему, оставьте, пожалуйста, комментарий.

Чтобы просмотреть содержание и другие материалы, нажмите здесь.