"Машинное обучение"

Предвзятость и отклонения в машинном обучении

Линейная регрессия - это алгоритм машинного обучения, который используется для прогнозирования количественной цели с помощью независимых переменных, которые моделируются линейно, чтобы соответствовать линии или плоскости (или гиперплоскости), содержащей предсказанные точки данных. На секунду давайте посмотрим, что это лучшая линия (для лучшего понимания). Таким образом, обычно точки из данных обучения на самом деле не лежат только на наиболее подходящей линии, и это имеет смысл, потому что любые данные не идеальны. Вот почему мы в первую очередь делаем прогнозы, а не просто строим случайную линию.

Понимание предвзятости

Линия линейной регрессии не может быть изогнута, чтобы включить все точки данных обучающего набора, и, следовательно, временами не может зафиксировать точную взаимосвязь. Это называется предвзятостью. С математической точки зрения, смещение, полученное в уравнении линейной регрессии, является смещением.

Почему я так говорю?

Позвольте мне объяснить: вот случайное уравнение линейной регрессии:

y = Перехват + Наклон1 * x1 + Наклон2 * x2

Цель (y) имеет некоторые значения в наборе данных, и приведенное выше уравнение вычисляет прогнозируемые значения для них. Если само значение «Перехват» очень велико и приближается к прогнозируемым значениям y, то это будет означать, что изменения y, вызванные двумя другими частями нашего уравнения - независимыми переменными (x1 и x2 ), будет меньше. Это означает, что величина дисперсии, объясняемая x1 и x2, будет меньше, и это в конечном итоге приведет к построению модели недостаточного соответствия. Модель недостаточного соответствия имеет низкий R-квадрат (величина отклонения цели, объясняемая независимыми переменными).

Недостаточное соответствие также можно понять, подумав о том, как в первую очередь захватывается наиболее подходящая линия / плоскость. Наиболее подходящие линия / плоскость фиксируют взаимосвязь между целью и независимой переменной. Если эта взаимосвязь зафиксирована в очень высокой степени, это приводит к низкому смещению и наоборот.

Теперь, когда мы понимаем, что такое смещение и как высокое смещение вызывает недостаточное соответствие модели, становится ясно, что для надежной модели нам необходимо устранить это недостаточное соответствие.

В сценарии, когда мы создаем кривую, которая проходит через все точки данных и может продемонстрировать существующую взаимосвязь между независимыми переменными и зависимой переменной, тогда в модели не будет смещения.

Понимание дисперсии

Модель, переоснащенная данными поездов, приведет к новому явлению, называемому «дисперсией». Пришло время рассмотреть несколько моделей:

Модель1: высокий уровень предвзятости (невозможно правильно зафиксировать взаимосвязь)

Модель2: Низкое смещение (в значительной степени фиксирует взаимосвязь)

Измерение ошибок при проверке модели:

Ошибка = Фактические значения - Прогнозируемые значения

При вычислении ошибок на обучающих данных (тестовых данных пока нет) мы наблюдаем следующее:

Модель1: проверка модели на данных поезда показывает, что ошибки высоки.

Модель2: проверка модели на данных поезда показывает, что количество ошибок невелико.

Теперь давайте введем данные о поездах и разберемся с дисперсией.

Итак, если модель переоснащена данными поезда, то она «понимает» и «знает» данные поезда в такой высокой степени, что возможно, что я не буду бороться с тестовые данные, и, следовательно, он не сможет зафиксировать взаимосвязь, когда тестовые данные используются в качестве входных данных для этой модели. В более широком смысле это означает, что будет большое различие соответствия между данными поезда и данными теста (поскольку данные поезда показывают идеальную проверку, а данные теста не могут зафиксировать взаимосвязь). Это различие соответствия называется «дисперсией» и обычно возникает, когда модель понимает только данные поезда и борется с любым новым вводом.

При проверке приведенных выше моделей на тестовых данных мы замечаем следующее:

Модель1: взаимосвязь здесь также не отражена правильно, но нет большого разрыва в понимании между данными поездов и тестов, поэтому дисперсия мала.

Модель2. Между данными поездов и испытаний существует огромный пробел, поэтому расхождение велико.

Компромисс между предвзятостью и дисперсией

Теперь мы понимаем, что и систематическая ошибка, и дисперсия могут вызвать проблемы в нашей модели прогнозирования. Итак, как нам решить эту проблему?

Прежде чем мы продолжим, необходимо понять несколько терминов:

Переоборудование: низкий смещение и высокая вариабельность - модель отлично подходит для данных поездов, но не справляется с тестовыми данными, поскольку хорошо понимает только данные поезда.

Недостаточное соответствие: высокое смещение и низкая изменчивость - модель не может зафиксировать взаимосвязь при использовании данных поезда, но, поскольку она все равно не зафиксировала взаимосвязь, поэтому нет большого разрыва в понимании между поездом. и тестовые данные, поэтому дисперсия низкая

Возвращаясь к решению, мы можем сделать следующее, чтобы попытаться найти компромисс между смещением и вызванной дисперсией:

1. Перекрестная проверка

Обычно модель строится на данных о поездах и тестируется на них, но есть еще одна вещь, которую люди предпочитают. Тестирование модели на части данных поезда, которая называется данными проверки.

Итак, что такое перекрестная проверка?

Как уже упоминалось, проверка модели выполняется на части данных поезда. Итак, если мы продолжаем выбирать новый набор точек данных из данных поезда для проверки каждой итерации и продолжать усреднять результаты, полученные из этих наборов данных, мы выполняем перекрестную проверку. Это оптимизированный метод для понимания поведения модели на данных поезда и способ понять, есть ли переобучение или нет.

Типы перекрестной проверки:

K-Fold CV: K здесь представляет собой количество наборов, на которые мы должны разбить наш набор поездов, и затем эти K наборов будут использоваться для проверки модели, а результаты, полученные из тезисов K наборы будут усреднены для получения окончательного результата, что, возможно, позволит избежать переобучения.

Резюме без исключения: методика работы с резюме с исключением одного и того же аналогична методике K-Fold CV, но она выводит процесс на новый уровень, поскольку он вычисляет Результаты перекрестной проверки с использованием каждой точки данных в данных поезда. Это, очевидно, требует много времени, но определенно помогает избежать переобучения.

Прямая цепочка: при работе с данными временных рядов K-Fold CV и Leave-One-Out CV могут создать проблему, поскольку это очень возможно что некоторые годы могут иметь закономерность, которой нет в другие годы, поэтому использование случайных наборов данных для перекрестной проверки не имеет смысла. Фактически, вполне возможно, что существующие тенденции могут остаться незамеченными, а это не то, что мы хотим. Так что, как правило, в таких случаях используется метод прямой цепочки, при котором каждое сворачивание мы формируем (для перекрестной проверки), содержит набор поездов, созданный путем добавления данных за год подряд к предыдущему набору поездов и проверки его на тестовом наборе (который содержит только год подряд до последнего года, использованного в наборе поездов).

2. Регуляризация

Регуляризация - это метод, который помогает уменьшить как систематическую ошибку, так и дисперсию за счет ограничения бета-коэффициентов, связанных с независимыми переменными нашей модели.

Я написал целую статью на тему «Выбор функций в машинном обучении», в которой я описал регуляризацию и ее типы гораздо более подробно. Не стесняйтесь проверить это здесь:

Выбор функций в машинном обучении

Заключение

Не существует идеальной модели. Ее нужно сделать совершенной, положительно используя ее недостатки. Как только вы сможете определить наличие смещения или изменчивости в вашей модели, вы сможете сделать массу вещей, чтобы это изменить. Вы также можете попробовать выбор и преобразование функций. Вы можете попробовать удалить некоторые излишне подогнанные переменные. На основе того, что возможно в данный момент, можно принять решение, и модель определенно может быть улучшена, если есть вероятность, что это произойдет.

Спасибо за внимание! Удачного обучения!

Поддержите мое письмо здесь 😃