Машинное обучение можно резюмировать как обучение функции (f), которая сопоставляет входные переменные (X) с выходными переменными (Y).

Y = f (x) Алгоритм изучает эту функцию отображения цели из обучающих данных.

Форма функции неизвестна, поэтому наша задача как практиков машинного обучения - оценивать различные алгоритмы машинного обучения и определять, какой из них лучше аппроксимирует основную функцию. Различные алгоритмы делают разные предположения или предубеждения относительно формы функции и того, как ее можно изучить.

Давайте посмотрим, что такое параметрический и непараметрический алгоритм обучения.

Алгоритмы параметрического машинного обучения

Предположения могут значительно упростить процесс обучения, но также могут ограничить то, что можно изучить. Алгоритмы, упрощающие функцию до известной формы, называются алгоритмами параметрического машинного обучения. Модель обучения, которая суммирует данные с набором параметров фиксированного размера (независимо от количества примеров обучения), называется параметрической моделью. Независимо от того, сколько данных вы передаете параметрической модели, она не изменит своего мнения о том, сколько параметров ей нужно.

Преимущества алгоритмов параметрического машинного обучения: Проще: эти методы легче понять и интерпретировать результаты. Скорость: параметрические модели очень быстро учатся на данных. Меньше данных: им не требуется столько обучающих данных, и они могут хорошо работать, даже если соответствие данным не идеально.

Ограничения алгоритмов параметрического машинного обучения: с ограничениями: при выборе функциональной формы эти методы сильно ограничиваются указанной формой. Ограниченная сложность: методы больше подходят для решения более простых задач. Плохое соответствие: на практике методы вряд ли будут соответствовать базовой функции сопоставления.

Непараметрические алгоритмы машинного обучения

Алгоритмы, которые не делают строгих предположений о форме функции отображения, называются непараметрическими алгоритмами машинного обучения. Не делая предположений, они могут изучать любую функциональную форму на основе данных обучения. Непараметрические методы хороши, когда у вас есть много данных и нет предварительных знаний, и когда вы не хотите слишком беспокоиться о выборе только правильных функций. Непараметрические методы стремятся наилучшим образом соответствовать обучающим данным в построении функции отображения, сохраняя при этом некоторую способность обобщать невидимые данные. Таким образом, они могут соответствовать большому количеству функциональных форм. Легкая для понимания непараметрическая модель - это алгоритм k-ближайших соседей, который делает прогнозы на основе k наиболее похожих обучающих шаблонов для нового экземпляра данных. Этот метод ничего не предполагает о форме функции сопоставления, кроме близких шаблонов, которые могут иметь аналогичную выходную переменную.

Еще несколько примеров популярных непараметрических алгоритмов машинного обучения: Деревья решений k-ближайших соседей, такие как CART и машины опорных векторов C4.5.

Преимущества непараметрических алгоритмов машинного обучения: Гибкость: возможность подгонки большого количества функциональных форм. Мощность: нет предположений (или слабых предположений) о базовой функции. Производительность: может привести к моделям с более высокой производительностью для прогнозирования.

Ограничения непараметрических алгоритмов машинного обучения: Больше данных: требуется гораздо больше обучающих данных для оценки функции сопоставления. Медленнее: намного медленнее тренироваться, поскольку у них часто есть гораздо больше параметров для тренировки. Переобучение: больший риск переобучения обучающих данных, и труднее объяснить, почему делаются конкретные прогнозы.

Регресс

  • Регрессионный анализ - это разновидность техники прогнозного моделирования, которая исследует взаимосвязь между зависимой (целевой) и независимой (ыми) переменными (предиктором). Параметрический по своей природе
  • Этот метод используется для прогнозирования, моделирования временных рядов и нахождения причинно-следственной связи между переменными.
  • Здесь мы подгоняем кривую / линию к точкам данных таким образом, чтобы минимизировать различия между расстояниями точек данных от кривой или линии. взаимосвязь между переменными, чтобы найти наиболее подходящую линию или уравнение регрессии, которое можно использовать для прогнозирования
  • Существуют различные методы регрессии, позволяющие делать прогнозы. Эти методы в основном основаны на трех показателях (количество независимых переменных, тип зависимых переменных и форма линии регрессии).
  • Различные типы регрессии -
  1. Линейная регрессия. В этом методе зависимая переменная является непрерывной, независимые переменные могут быть непрерывными или дискретными, а характер линии регрессии является линейным.
  2. Логистическая регрессия. Логистическая регрессия - это алгоритм классификации, используемый для отнесения наблюдений к дискретному набору классов.
  3. Полиномиальная регрессия. Уравнение регрессии - это уравнение полиномиальной регрессии, если степень независимой переменной больше 1. Разница между простой линейной регрессией и множественной линейной регрессией заключается в том, что множественная линейная регрессия имеет (›1) независимых переменных, тогда как простая линейная регрессия имеет только 1 независимую переменную. В случае полиномиальной регрессии мы могли бы использовать более высокие степени X для описания Y, как описано в Y = m1X + m2X2 + C, где m1 и m2 - коэффициенты первой и второй мощности фактора. Когда вы выполняете полиномиальную регрессию, вы просто выполняете множественную регрессию с множественными преобразованиями одной переменной.

4. Пошаговая регрессия: эта форма регрессии используется, когда мы имеем дело с несколькими независимыми переменными. В этом методе выбор независимых переменных осуществляется с помощью автоматического процесса, который не требует вмешательства человека.

5. Риджерная регрессия: метод анализа данных множественной регрессии. Когда возникает мультиколлинеарность, оценки методом наименьших квадратов несмещены. К оценкам регрессии добавляется степень смещения, и в результате гребенчатая регрессия уменьшает стандартные ошибки. Гребенчатая регрессия уменьшает значение коэффициентов, но не достигает нуля, что предполагает отсутствие функции выбора признаков.

6. Лассо-регрессия: метод регрессионного анализа, который выполняет как выбор переменных, так и регуляризацию. В регрессии лассо используется мягкое пороговое значение. При регрессии лассо выбирается только подмножество предоставленных ковариат для использования в окончательной модели. Если группа предикторов сильно коррелирована, лассо выбирает только один из них и сжимает остальные до нуля.

7. Регрессия ElasticNet: - это метод регуляризованной регрессии, который линейно сочетает в себе недостатки методов лассо и гребня.

*** Усадка означает, что коэффициенты уменьшаются до нуля по сравнению с оценками параметров OLS. Это называется регуляризацией.

8. Порядковая регрессия. Порядковая регрессия используется для прогнозирования ранжированных значений. Проще говоря, этот тип регрессии подходит, когда зависимая переменная имеет порядковый характер. Пример порядковых переменных - ответы на опрос (шкала от 1 до 6), реакция пациента на дозу лекарства (нет, легкая, тяжелая).

9. Регрессия Пуассона: регрессия Пуассона используется, когда зависимая переменная имеет данные подсчета. Применение регрессии Пуассона - прогнозирование количества вызовов в службу поддержки клиентов, связанных с конкретным продуктом. Оценка количества вызовов службы экстренной помощи во время события. Зависимая переменная должна удовлетворять следующим условиям - Зависимая переменная имеет распределение Пуассона. Количество не может быть отрицательным. Этот метод не подходит для нецелых чисел.

Теперь давайте исследуем нашу линейную регрессию:

Математически регрессия использует линейную функцию для аппроксимации (прогнозирования) зависимой переменной, заданной как:

Y = βo + β1X + ∈

Ошибка - неизбежная часть процесса прогнозирования. Независимо от того, насколько мощный алгоритм мы выберем, всегда будет оставаться (∈) неснижаемая ошибка, которая напоминает нам, что «будущее неопределенно».

Проверка гипотез в линейной регрессии

Вы начинаете с того, что говорите, что β1 не имеет значения, то есть между X и y нет связи. Итак, чтобы выполнить проверку гипотезы, мы сначала предлагаем

  • нулевая гипотеза о том, что β1 равно 0.
  • Таким образом, альтернативная гипотеза принимает вид, что β1 не равно нулю.

Если вам не удастся отвергнуть нулевую гипотезу, это будет означать, что β1 равно нулю, что будет просто означать, что β1 несущественен и бесполезен в модели. Аналогичным образом, если вы отклоните нулевую гипотезу, это будет означать, что β1 не равно нулю, а подобранная линия является значимой. Теперь, чтобы выполнить проверку гипотезы, вам нужно вывести p- значение для данной беты.

Теперь, если значение p оказывается меньше 0,05, вы можете отклонить нулевую гипотезу и заявить, что β1 действительно значимо.

ПРИМЕЧАНИЕ. Статистические данные теста для β1 соответствуют t-распределению вместо нормального распределения.

Сумма квадратов ошибок (SSE): чтобы соответствовать наилучшей линии пересечения между точками на приведенных выше диаграммах рассеяния, мы используем метрику, называемую «Сумма квадратов ошибок» (SSE), и сравниваем линии, чтобы найти наилучшее соответствие уменьшение ошибок. Ошибки представляют собой разницу сумм между фактическим и прогнозируемым значением. Чтобы найти ошибки для каждого зависимого значения, нам нужно использовать формулу ниже.

Остатки Разница между наблюдаемым значением зависимой переменной (y) и прогнозируемым значением (ŷ) называется остатком (e). Каждая точка данных имеет один остаток.

Остаточный = наблюдаемое значение - прогнозируемое значение e = y - ŷ

Свойство- И сумма, и среднее значение остатков равны нулю. То есть Σ e = 0 и e = 0.

мы не можем полностью исключить член ошибки (∈), но мы все же можем попытаться уменьшить его до минимума. Для этого в регрессии используется метод, известный как Обычный наименьший квадрат (OLS). Метод «Обычных наименьших квадратов» (OLS) используется для нахождения наилучшего пересечения линии βo и наклона β1.

Я использую линейную / множественную регрессию, вы на самом деле имеете в виду метод OLS. Концептуально метод OLS пытается уменьшить сумму квадратов ошибок ∑ [Фактический (y) - Прогнозируемый (y ’)] ² путем нахождения наилучшего возможного значения коэффициентов регрессии (β0, β1 и т. Д.).

Наиболее интуитивно понятным и наиболее близким приближением Y является среднее значение Y, то есть даже в наихудшем сценарии наша модель прогнозирования должна, по крайней мере, давать более высокую точность, чем прогноз среднего значения. Формула для расчета коэффициентов выглядит так:

  • Существуют и другие методы, такие как обобщенный наименьший квадрат, процент наименьших квадратов, всего наименьших квадратов, наименьшее абсолютное отклонение, градиентный спуск и многие другие.
  • Однако важно отметить, что метод OLS будет работать для одномерного набора данных (т. Е. Отдельных независимых переменных и отдельных зависимых переменных). Многовариантный набор данных содержит один набор независимых переменных и несколько наборов зависимых переменных, для чего требуется алгоритм машинного обучения под названием «Градиентный спуск».

Теперь вы знаете, что ymean играет решающую роль в определении коэффициентов регрессии и, более того, точности. В OLS оценки ошибок можно разделить на три части:

Остаточная сумма квадратов (RSS) - ∑ [Фактический (y) - Прогнозируемый (y)] ²

Объясненная сумма квадратов (ESS) - ∑ [Прогноз (y) - Среднее (ymean)] ²

Общая сумма квадратов (TSS) - ∑ [Фактическое (y) - Среднее (ymean)] ²

Предположения, сделанные в регрессии

Как мы обсуждали выше, регрессия - это параметрический метод, поэтому он делает предположения. Давайте посмотрим на предположения, которые он делает:

  1. Линейность и аддитивность взаимосвязи между зависимыми и независимыми переменными: между зависимой (целевой) переменной и независимой (предиктивной) переменной должна быть линейная взаимосвязь. Линейная взаимосвязь предполагает, что изменение целевого значения Y из-за изменение на одну единицу в X1 является постоянным, независимо от значения X1. Под аддитивом это относится к тому, что влияние X на Y не зависит от других переменных. Это можно проверить, построив график разброса целевой по сравнению с отдельными независимыми переменными.

Как исправить: рассмотрите возможность применения нелинейного преобразования к зависимым и / или независимым переменным, если вы можете придумать преобразование, которое кажется подходящим.

2. Отсутствие мультиколлинеарности: это явление существует, когда независимые переменные оказываются умеренно или сильно коррелированными. В модели с коррелированными переменными становится сложной задачей выяснить истинную связь предикторов с переменной отклика. Другими словами, становится трудно выяснить, какая переменная на самом деле способствует предсказанию переменной отклика. Между независимыми переменными не должно быть корреляции.

Мы можем проверить мультиколлинеарность с помощью • матрицы корреляции • VIF.

3. Нет автокорреляции: члены ошибки должны быть некоррелированными, т.е. ошибка at ∈t не должна указывать на ошибку at при ∈t + 1. Наличие корреляции в терминах ошибок известно как автокорреляция. Это сильно влияет на коэффициенты регрессии и значения стандартной ошибки, поскольку они основаны на предположении о некоррелированных членах ошибок. Обычно в случае данных временных рядов. Это можно оценить с помощью: • статистики Дарбина-Ватсона (DW). Он должен находиться в диапазоне от 0 до 4. Если DW = 2, автокорреляция отсутствует, 0 ‹DW‹ 2 означает положительную автокорреляцию, а 2 ‹DW‹ 4 означает отрицательную автокорреляцию.

4.Гомоскедастичность (постоянная дисперсия): дисперсия ошибок постоянна по отношению к прогнозируемым переменным, реакции или времени. Как правило, непостоянная дисперсия возникает при наличии выбросов или экстремальных значений кредитного плеча. Как диагностировать: посмотрите на график зависимости остатков от прогнозируемых значений и, в случае данных временных рядов, график остатков от времени. Это диаграмма разброса остатков по оси y и подогнанных значений (оценочные ответы) по оси x. График используется для обнаружения нелинейности, неравных дисперсий ошибок и выбросов.

Этот график является классическим примером хорошо построенного графика зависимости остатков от совпадений. Вот характеристики хорошо построенного графика зависимости невязки от соответствий и их предположения о пригодности простой модели линейной регрессии:

  • Остатки «случайным образом отскакивают» от нулевой линии. Это говорит о том, что предположение о линейности зависимости является разумным.
  • Остатки примерно образуют «горизонтальную полосу» вокруг нулевой линии. Это говорит о том, что дисперсии членов ошибки равны.
  • Ни один остаток не «выделяется» из основного случайного набора остатков. Это говорит об отсутствии выбросов.

5. Нормальность распределения ошибок: мы можем проверить это, построив гистограмму остатков. Или Нормальный QQ Постройте нормализованные остатки. Этот qq или квантиль-квантиль представляет собой диаграмму рассеяния, которая помогает нам проверить предположение о нормальном распределении в данных. установленный. Используя этот график, мы можем сделать вывод, получены ли данные из нормального распределения. Если бы сюжет показывал бы достаточно прямую линию. Отсутствие нормальности ошибок видно по отклонению прямой линии.

Когда квантили двух переменных наносятся друг на друга, полученный график известен как график квантиль-квантиль или qqplot. Этот график дает сводную информацию о том, схожи ли распределения двух переменных в зависимости от местоположения. Все точки квантилей лежат на прямой линии под углом 45 градусов от оси x или близко к ней. Это указывает на то, что две выборки имеют одинаковое распределение.

Подводя итог, можно сказать:

Предположение о форме модели:

Предполагается, что существует линейная зависимость между зависимыми и независимыми переменными. Это известно как «допущение линейности».

Предположения об остатках:

  • Предположение о нормальности: предполагается, что члены ошибки ε (i) имеют нормальное распределение.
  • Предположение о нулевом среднем: предполагается, что невязки имеют среднее значение, равное нулю.
  • Предположение о постоянной дисперсии: предполагается, что остаточные члены имеют одинаковую (но неизвестную) дисперсию σ2. Это предположение также известно как предположение об однородности или гомоскедастичности.
  • Предположение о независимой ошибке: предполагается, что остаточные члены независимы друг от друга, т.е. их попарная ковариация равна нулю.

Предположения об оценках:

  • Независимые переменные измеряются без ошибок.
  • Независимые переменные линейно независимы друг от друга, т.е. в данных отсутствует мультиколлинеарность.

Метрики оценки, используемые в линейной регрессии

Среднеквадратичная ошибка:

MSE или среднеквадратичная ошибка - один из наиболее предпочтительных показателей для задач регрессии. Это просто среднее значение квадрата разницы между целевым значением и значением, предсказанным регрессионной моделью. Поскольку он возводит различия в квадрат, он наказывает даже небольшую ошибку, которая приводит к переоценке того, насколько плоха модель. Он предпочтительнее других показателей, потому что он дифференцируемый и, следовательно, может быть лучше оптимизирован.

Среднеквадратичная ошибка:

RMSE является наиболее широко используемой метрикой для задач регрессии и представляет собой квадратный корень из усредненной квадратичной разницы между целевым значением и значением, предсказанным моделью. В некоторых случаях это предпочтительнее, потому что ошибки сначала возводятся в квадрат перед усреднением, что влечет за собой высокие штрафы за большие ошибки. Это означает, что RMSE полезен, когда большие ошибки нежелательны.

Абсолютная ошибка:

MAE - это абсолютная разница между целевым значением и значением, предсказанным моделью. MAE более устойчиво к выбросам и не так сильно наказывает ошибки, как mse. MAE - это линейная оценка, что означает, что все индивидуальные различия взвешиваются одинаково. Он не подходит для приложений, где вы хотите уделять больше внимания выбросам.

Поскольку мы возводим разницу в квадрат, MSE почти всегда будет больше, чем MAE. По этой причине мы не можем напрямую сравнивать MAE с MSE. Мы можем только сравнивать показатели ошибок нашей модели с показателями конкурирующей модели. Эффект квадратного члена в уравнении MSE наиболее очевиден при наличии выбросов в наших данных. В то время как каждая невязка в MAE пропорционально вносит вклад в общую ошибку, ошибка увеличивается квадратично в MSE. В конечном итоге это означает, что выбросы в наших данных будут вносить вклад в гораздо более высокую общую ошибку в MSE, чем в MAE. Точно так же наша модель будет больше наказываться за прогнозы, которые сильно отличаются от соответствующего фактического значения. Это означает, что большие различия между фактическими и прогнозируемыми в MSE наказываются больше, чем в MAE.

Однако, даже будучи более сложным и смещенным в сторону большего отклонения, RMSE по-прежнему является метрикой по умолчанию для многих моделей, поскольку функция потерь, определенная в терминах RMSE, легко дифференцируема и упрощает выполнение математических операций.

Коэффициент детерминации или R²

- еще один показатель, используемый для оценки производительности регрессионной модели. Показатель помогает нам сравнить нашу текущую модель с постоянной базовой линией и говорит нам, насколько наша модель лучше. Постоянная базовая линия выбирается, беря среднее значение данных и рисуя линию на среднем значении. R² - это оценка без шкалы, которая означает, что не имеет значения, слишком ли большие значения или слишком маленькие, R² всегда будет меньше или равен 1.

Показатель R² говорит нам о величине дисперсии, объясняемой независимыми переменными в модели.

Скорректированный R²:

Скорректированный R² имеет то же значение, что и R², но является его улучшением. R² страдает от проблемы, заключающейся в том, что оценки улучшаются с увеличением числа терминов, даже если модель не улучшается, что может ввести исследователя в заблуждение. Скорректированный R² всегда ниже, чем R², поскольку он корректируется с учетом возрастающих предикторов и показывает улучшение только в том случае, если есть реальное улучшение.

Почему R² отрицательный

Люди ошибочно полагают, что оценка R² колеблется от 0 до 1, но на самом деле она колеблется от -∞ до 1. Следующие причины могут привести к тому, что R² будет иметь значение -ve:

  • Возможно, их область - большое количество выбросов в данных, из-за которых mse модели превышает mse базовой линии, что приводит к отрицательному значению R² (т. Е. Числитель больше знаменателя).
  • Иногда при кодировании алгоритма регрессии исследователь может забыть добавить точку пересечения к регрессору, что также приведет к отрицательному значению R². Это связано с тем, что без преимущества перехвата регрессия могла бы быть хуже, чем выборочное среднее (базовое значение) с точки зрения отслеживания зависимой переменной (т.е. числитель мог бы быть больше знаменателя)
  • SSres превысит SStot, когда линия или кривая соответствуют данным даже хуже, чем горизонтальная линия. R2 будет отрицательным, если линия или кривая ужасно справляются с подгонкой данных. Такое может случиться, если вам подойдет плохо подобранная модель.

F-статистика

F-статистика похожа в том смысле, что теперь вместо проверки значимости каждой из бета-версий она сообщает вам, является ли соответствие модели значимым или нет. Этот параметр исследуется, потому что часто случается, что даже если все ваши бета-версии значительны, но общая подгонка модели может произойти случайно.

Если «Вероятность (F-статистика)» меньше 0,05, можно сделать вывод, что полное соответствие модели значимо. Если он больше 0,05, вам может потребоваться пересмотреть вашу модель, так как соответствие может быть случайным, т.е. линия может просто удачно соответствовать данным. Это будет более заметно при множественной линейной регрессии, поскольку у вас есть много бета-версий для различных переменных-предикторов, и, таким образом, это очень полезно для определения того, являются ли все переменные-предикторы вместе в целом значимыми или нет, или, проще говоря, он сообщает важно, подходит ли модель в целом или нет.

Коэффициенты и p-значения:

Значения p коэффициентов (в данном случае только один коэффициент для TV) говорят вам, является ли коэффициент значимым или нет.

Функция стоимости

Это функция, которая измеряет производительность модели машинного обучения для заданных данных. Функция стоимости позволяет количественно оценить ошибку между прогнозируемыми и ожидаемыми значениями.

Назначение функции стоимости: минимизировать - тогда возвращаемое значение обычно называется стоимостью, потерей или ошибкой. Цель состоит в том, чтобы найти значения параметров модели, для которых функция затрат возвращает как можно меньшее число. Максимальное - тогда полученное значение называется наградой. Цель состоит в том, чтобы найти значения параметров модели, для которых возвращаемое число является как можно большим.

- ›МСЭ

Градиентный спуск

Градиентный спуск - это алгоритм оптимизации, используемый для минимизации некоторой функции путем итеративного движения в направлении наискорейшего спуска, определяемого отрицательным значением градиента. В машинном обучении мы используем градиентный спуск для обновления параметров нашей модели. Параметры относятся к коэффициентам в линейной регрессии и весам в нейронных сетях.

Однако важно отметить, что метод OLS будет работать для одномерного набора данных (т. е. отдельных независимых переменных и отдельных зависимых переменных). Многовариантный набор данных содержит один набор независимых переменных и несколько наборов зависимых переменных, требующих «градиентного спуска».

Начиная с вершины горы, мы делаем первый шаг вниз по направлению, заданному отрицательным градиентом. Затем мы пересчитываем отрицательный градиент (передавая координаты нашей новой точки) и делаем еще один шаг в указанном направлении. Мы продолжаем этот процесс итеративно, пока не дойдем до конца нашего графика или до точки, где мы больше не можем двигаться вниз - локального минимума.

Скорость обучения Размер этих шагов называется скоростью обучения. С высокой скоростью обучения мы можем преодолевать больше земли на каждом этапе, но мы рискуем выйти за самую низкую точку, поскольку наклон холма постоянно меняется. При очень низкой скорости обучения мы можем уверенно двигаться в направлении отрицательного градиента, поскольку мы так часто его пересчитываем. Низкая скорость обучения более точна, но вычисление градиента занимает много времени, поэтому нам потребуется очень много времени, чтобы добраться до сути.

Типы алгоритмов градиентного спуска

Различные варианты градиентного спуска определяются на основе того, как мы используем данные для вычисления производной функции стоимости при градиентном спуске. В зависимости от количества используемых данных временная сложность и точность алгоритмов различаются.

  • Пакетный градиентный спуск
  • Стохастический градиентный спуск
  • Мини-пакетный градиентный спуск

Градиентный спуск может выполняться медленно на очень больших наборах данных.

Поскольку для одной итерации алгоритма градиентного спуска требуется прогноз для каждого экземпляра в наборе обучающих данных, это может занять много времени, если у вас много миллионов экземпляров. В ситуациях, когда у вас есть большие объемы данных, вы можете использовать вариант градиентного спуска, называемый стохастический градиентный спуск. В этом варианте выполняется процедура градиентного спуска, описанная выше, но выполняется обновление коэффициентов. для каждого обучающего экземпляра, а не в конце пакета экземпляров. Обучение может быть намного быстрее со стохастическим градиентным спуском для очень больших наборов обучающих данных, и часто вам нужно только небольшое количество проходов через набор данных, чтобы получить хороший или достаточно хороший набор коэффициентов, например От 1 до 10 проходит через набор данных.

Мини-пакет - это наиболее удобный и широко используемый алгоритм, который дает точные и быстрые результаты с использованием пакета обучающих примеров "m". В алгоритме мини-пакетной обработки вместо использования полного набора данных на каждой итерации мы используем набор обучающих примеров «m», называемый пакетным, для вычисления градиента функции стоимости. Обычные размеры мини-пакетов варьируются от 50 до 256, но могут различаться для разных приложений. Таким образом, алгоритм

  • уменьшает дисперсию обновлений параметров, что может привести к более стабильной сходимости.
  • может использовать высокооптимизированную матрицу, что делает вычисление градиента очень эффективным.

Выполнение линейной регрессии с использованием нормального уравнения

Обычно поиск лучших параметров модели выполняется с помощью какого-либо алгоритма оптимизации (например, градиентного спуска) для минимизации функции стоимости. Однако можно получить значения (веса) этих параметров, решив также алгебраическое уравнение, называемое нормальным уравнением. Это определено ниже.

Проблема в ее числовой сложности. Решение этого уравнения требует инвертирования матрицы, и это дорогостоящая операция с точки зрения вычислений - в зависимости от реализации в нотации большого O это O (n³) или немного меньше. Это означает, что масштабирование ужасно, что практически означает, что когда вы удваиваете количество функций, время вычислений увеличивается в ²³ = 8 раз. Также существует некоторая вероятность, что результат шага 2 вообще не обратим, что вызовет большие проблемы. Это причины, по которым на практике такой подход необычен. С другой стороны, этот подход рассчитывается всего за один шаг, и вам не нужно выбирать параметр скорости обучения. Кроме того, с точки зрения использования памяти этот подход является линейным O (m), что означает, что он эффективно хранит огромные наборы данных, если они помещаются только в память вашего компьютера.

Понимание компромисса смещения и отклонения

Ошибка предсказания для любого алгоритма машинного обучения может быть разбита на три части:

  • Ошибка смещения
  • Ошибка отклонения
  • Неснижаемая ошибка Неснижаемая ошибка не может быть уменьшена независимо от того, какой алгоритм используется. Это ошибка, вызванная выбранным образом проблемы и может быть вызвана такими факторами, как неизвестные переменные, которые влияют на отображение входных переменных в выходную переменную.

Всякий раз, когда мы обсуждаем прогнозирование модели, важно понимать ошибки прогнозирования (смещение и дисперсию). Существует компромисс между способностью модели минимизировать смещение и дисперсию.

Правильное понимание этих ошибок поможет нам не только построить точные модели, но и избежать ошибки переобучения или недообучения.

Ошибка смещения

Смещение - это упрощающие допущения, сделанные моделью для упрощения аппроксимации целевой функции. или это относится к разнице между значениями, предсказанными моделью, и реальными значениями.

Смещение = ошибка в предсказании точки

Низкое смещение: меньше предположений о форме целевой функции. High-Bias: предлагает больше предположений о форме целевой функции.

  • Примеры алгоритмов машинного обучения с низким смещением: деревья принятия решений, k-ближайшие соседи и машины опорных векторов.
  • Примеры алгоритмов машинного обучения с высоким смещением: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.

Ошибка дисперсии

Дисперсия - это величина, на которую изменится оценка целевой функции, если использовались разные данные обучения. или разница между подгонкой в ​​тесте и тесте данных обучения.

Низкая дисперсия: предлагает небольшие изменения в оценке целевой функции с изменениями в наборе обучающих данных. Высокая дисперсия: предлагает большие изменения в оценке целевой функции с изменениями в наборе обучающих данных.

Модель с высокой дисперсией уделяет много внимания обучающим данным и не обобщает данные, которых она раньше не видела. В результате такие модели очень хорошо работают с обучающими данными, но имеют высокий уровень ошибок на тестовых данных.

  • Примеры алгоритмов машинного обучения с низкой дисперсией: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.
  • Примеры алгоритмов машинного обучения с высокой дисперсией включают: деревья принятия решений, k-ближайших соседей и машины опорных векторов.

Цель любого алгоритма машинного обучения с учителем - добиться низкого уровня систематической ошибки и дисперсии. В свою очередь, алгоритм должен обеспечивать хорошие характеристики прогнозирования.

Вы можете увидеть общую тенденцию в приведенных выше примерах:

  • Алгоритмы линейного машинного обучения часто имеют высокую систематическую ошибку, но низкую дисперсию.
  • Алгоритмы нелинейного машинного обучения часто имеют низкую систематическую ошибку, но большую дисперсию.

Кривые обучения

Допустим, у нас есть некоторые данные, которые мы разбиваем на обучающий набор и набор для проверки. Мы берем один единственный экземпляр (правильно, один!) Из обучающей выборки и используем его для оценки модели. Затем мы измеряем ошибку модели на проверочном наборе и на этом единственном экземпляре обучения. Ошибка в обучающем экземпляре будет равна 0, поскольку довольно легко точно уместить одну точку данных. Однако ошибка на проверочном наборе будет очень большой. Теперь предположим, что вместо одного обучающего примера мы берем десять и повторяем измерения ошибок. Затем мы берем пятьдесят, сто, пятьсот, пока не используем весь наш тренировочный набор. Оценки ошибок будут более или менее изменяться по мере изменения обучающей выборки. Таким образом, у нас есть две оценки ошибок, которые нужно отслеживать: одна для проверочного набора и одна для обучающих наборов.

Если мы построим график эволюции двух оценок ошибок при изменении обучающих наборов, мы получим две кривые. Это называется кривыми обучения. Вкратце, кривая обучения показывает, как изменяется ошибка при увеличении размера обучающей выборки.

Если ошибка обучения и истинная ошибка (ошибка перекрестной проверки) сходятся к одному и тому же значению и соответствующее значение ошибки высокое, это указывает на то, что модель не соответствует требованиям и страдает от высокого смещения. Если существует значительный разрыв между сходящимися значениями ошибок обучения и перекрестной проверки, то есть ошибка перекрестной проверки значительно выше, чем ошибка обучения, это говорит о том, что модель переоснащается обучающими данными и страдает от высокой дисперсии. .

Как мультиколлинеарность влияет на линейную регрессию

Мультиколлинеарность возникает, когда некоторые из независимых переменных сильно коррелированы (положительно или отрицательно) друг с другом. Эта мультиколлинеарность вызывает проблему, поскольку противоречит основному предположению о линейной регрессии. Наличие мультиколлинеарности не влияет на предсказательную способность модели. Итак, если вам просто нужны прогнозы, наличие мультиколлинеарности не повлияет на ваш результат. Однако, если вы хотите извлечь из модели некоторые выводы и применить их, скажем, в какой-либо бизнес-модели, это может вызвать проблемы.

Одна из основных проблем, вызываемых мультиколлинеарностью, заключается в том, что она приводит к неверным интерпретациям и дает неверные представления. Коэффициенты линейной регрессии предполагают среднее изменение целевого значения, если признак изменяется на одну единицу. Таким образом, если существует мультиколлинеарность, это неверно, поскольку изменение одной функции приведет к изменениям коррелированной переменной и последующим изменениям целевой переменной. Это приводит к неверным выводам и может привести к опасным результатам для бизнеса.

Мультиколлинеарность влияет на следующее:

  • Интерпретация Применяется ли «изменение Y, когда все остальные остаются постоянными»?
  • Коэффициенты вывода сильно колеблются, знаки могут инвертироваться. Следовательно, p-значения не являются надежными.

Прогностическая сила, определяемая значением R-квадрата, не изменяется, потому что даже если у вас могут быть избыточные переменные в вашей модели, поэтому мультиколлинеарность не играет роли в влиянии R-квадрата.

Вот некоторые методы, которые можно использовать для борьбы с мультиколлинеарностью:

  • Удаление переменных: отбросьте переменную, которая сильно коррелирует с другими. Выберите интерпретируемую бизнес-переменную.
  • Создание новой переменной с использованием взаимодействий старых переменных: добавьте функции взаимодействия, т. е. функции, полученные с использованием некоторых из исходных функций.
  • Преобразования переменных: анализ главных компонентов или регрессия методом наименьших квадратов.

коэффициент инфляции дисперсии (VIF)

Коэффициент инфляции дисперсии (VIF) количественно определяет степень корреляции между одним предиктором и другими предикторами в модели. Он используется для диагностики коллинеарности / мультиколлинеарности. Более высокие значения означают, что трудно или невозможно точно оценить вклад предикторов в модель.

  • Коэффициент инфляции дисперсии (VIF) количественно определяет, насколько раздута дисперсия.
  • стандартные ошибки - и, следовательно, дисперсии - оцененных коэффициентов завышаются, когда существует мультиколлинеарность.
  • Фактор инфляции дисперсии существует для каждого из предикторов в модели множественной регрессии. Например, коэффициент инфляции дисперсии для оцененного коэффициента регрессии bj - обозначаемый VIFj - это просто фактор, на который «раздувается» дисперсия bj из-за наличия корреляции между прогностическими переменными в модели.

В частности, коэффициент инфляции дисперсии для j-го предиктора равен:

Значение 1 означает, что предиктор не коррелирует с другими переменными. Чем выше значение, тем больше корреляция переменной с другими переменными. Обычная эвристика, которой мы следуем для значений VIF:

  • больше 10: значение VIF определенно высокое, и переменную следует исключить.
  • больше 5: Может быть нормально, но стоит проверить.
  • менее 5: хорошее значение VIF. Не нужно исключать эту переменную.

Методы повышения точности модели

1. Обработайте отсутствующие значения и значения выбросов.

Нежелательное присутствие отсутствующих и резко отклоняющихся значений в обучающих данных часто снижает точность модели или приводит к смещению модели. Это приводит к неточным прогнозам. Это потому, что мы неправильно анализируем поведение и взаимосвязь с другими переменными. Таким образом, важно хорошо относиться к отсутствующим и выпадающим значениям.

Обработка отсутствующих значений:

  • Удаление
  • Вменение среднего / режима / медианы: он заключается в замене отсутствующих данных для данного атрибута средним или медианным (количественный атрибут) или режимом (качественный атрибут) всех известных значений этой переменной.
  • Модель прогнозирования. Модель прогнозирования - один из сложных методов обработки недостающих данных. Здесь мы создаем прогнозную модель для оценки значений, которые заменят отсутствующие данные. В этом случае мы разделяем наш набор данных на два набора: один набор без пропущенных значений для переменной и другой с пропущенными значениями. Первый набор данных становится набором обучающих данных модели, в то время как второй набор данных с пропущенными значениями является набором тестовых данных, а переменная с пропущенными значениями обрабатывается как целевая переменная. Затем мы создаем модель для прогнозирования целевой переменной на основе других атрибутов набора обучающих данных и заполняем отсутствующие значения набора тестовых данных. Для этого мы можем использовать регрессию, ANOVA, логистическую регрессию и различные методы моделирования.
  • Вменение KNN. В этом методе вменения отсутствующие значения атрибута вменяются с использованием заданного количества атрибутов, которые наиболее похожи на атрибут, значения которого отсутствуют. Сходство двух атрибутов определяется с помощью функции расстояния. Методы обнаружения и обработки выбросов. Выбросы могут быть двух типов: одномерные и многомерные. Выше мы обсуждали пример одномерного выброса. Эти выбросы можно найти, когда мы посмотрим на распределение одной переменной. Многовариантные выбросы - это выбросы в n-мерном пространстве. Чтобы найти их, вам нужно посмотреть на распределения во многих измерениях.

Поиск и обработка выбросов

Наиболее часто используемый метод обнаружения выбросов -

  • визуализация: мы используем различные методы визуализации, такие как прямоугольная диаграмма, гистограмма, точечная диаграмма (выше мы использовали прямоугольную диаграмму и диаграмму рассеяния для визуализации).
  • Любое значение, выходящее за пределы диапазона от -1,5 x IQR до 1,5 x IQR.
  • Используйте методы укупорки. Любое значение, выходящее за пределы 5-го и 95-го процентилей, может рассматриваться как выброс
  • Точки данных, отклоняющиеся от среднего значения на три или более стандартных отклонения, считаются выбросами.
  • Обнаружение выбросов - это просто частный случай изучения данных для важных точек данных, и это также зависит от понимания бизнеса.
  • Двумерные и многомерные выбросы обычно измеряются либо с использованием индекса влияния, либо рычага, либо расстояния. Популярные индексы, такие как расстояние Махаланобиса и D Кука, часто используются для обнаружения выбросов.

Способы удаления выбросов:

  • Удаление наблюдений. Мы удаляем выбросы, если это связано с ошибкой ввода данных, ошибкой обработки данных или очень маленькими значениями выбросов. Мы также можем использовать обрезку с обоих концов, чтобы удалить выбросы.
  • Преобразование и группирование значений. Преобразование переменных также может устранить выбросы. Натуральный логарифм значения уменьшает вариацию, вызванную экстремальными значениями. Биннинг - это также форма преобразования переменных. Алгоритм дерева решений позволяет хорошо справляться с выбросами за счет объединения переменных. Мы также можем использовать процесс присвоения весов различным наблюдениям.
  • Подстановка. Подобно условному условию пропущенных значений, мы также можем условно исчислить выбросы. Мы можем использовать методы вменения среднего, медианного и модового значений. Прежде чем вменять значения, мы должны проанализировать, является ли оно естественным или искусственным. Если это искусственно, мы можем использовать условные значения. Мы также можем использовать статистическую модель для прогнозирования значений наблюдений выбросов, и после этого мы можем вменять им прогнозируемые значения.
  • Рассматривать отдельно: если имеется значительное количество выбросов, мы должны рассматривать их отдельно в статистической модели. Один из подходов состоит в том, чтобы рассматривать обе группы как две разные группы и строить индивидуальную модель для обеих групп, а затем объединять выходные данные.

2.Функциональная инженерия

Этот шаг помогает извлечь больше информации из существующих данных. Процесс разработки элементов можно разделить на два этапа:

Преобразование функций

  • преобразование относится к замене переменной функцией. Например, замена переменной x на квадратный / кубический корень или логарифм x является преобразованием. Другими словами, преобразование - это процесс, который изменяет распределение или взаимосвязь переменной с другими. Это можно сделать для
  • мы хотим изменить масштаб переменной или стандартизировать значения переменной
  • преобразовать сложные нелинейные отношения в линейные
  • Симметричное распределение предпочтительнее асимметричного распределения - всякий раз, когда у нас есть искаженное распределение, мы можем использовать преобразования, которые уменьшают асимметрию. Для скошенного вправо распределения мы берем квадратный / кубический корень или логарифм переменной, а для скошенного влево - квадрат / куб или экспоненту переменных.
  • Иногда создание бункеров числовых данных работает хорошо, поскольку он также обрабатывает значения выбросов. Числовые данные можно сделать дискретными, сгруппировав значения в ячейки. Это известно как дискретизация данных.

Создание функции

Получение новой переменной (переменных) из существующих переменных называется созданием функции.

3. выбор функции

Выбор характеристик - это процесс определения лучшего подмножества атрибутов, которое лучше объясняет взаимосвязь независимых переменных с целевой переменной.

  • Знание предметной области: исходя из опыта предметной области, мы выбираем функции, которые могут иметь большее влияние на целевую переменную.
  • Визуализация
  • Статистические параметры. Мы также учитываем p-значения, информационные значения и другие статистические показатели, чтобы выбрать правильные функции. PCA помогает представить данные обучения в Пространства более низкой размерности, но все же характеризуют внутренние отношения в данных. Это разновидность техники уменьшения размерности. (Важность функции)

4. Несколько алгоритмов

Выбор правильного алгоритма машинного обучения - идеальный подход для достижения более высокой точности. Но легче сказать, чем сделать.

5. Настройка алгоритма

Параметры - это свойства, которые алгоритм изучает во время обучения. Для линейной регрессии это веса и смещения; в то время как для случайных лесов это переменные и пороговые значения на каждом узле. С другой стороны, гиперпараметры - это свойства, которые необходимо установить перед обучением. Для кластеризации k-средних вы должны определить значение k; в то время как для нейронных сетей примером является скорость обучения.

Ванильная линейная регрессия не имеет гиперпараметров. Но есть варианты линейной регрессии. Риджевая регрессия и лассо добавляют член регуляризации к линейной регрессии; вес для члена регуляризации называется параметром регуляризации.
Другой тип гиперпараметра исходит из самого процесса обучения. Обучение модели машинного обучения часто включает оптимизацию функции потерь (метрики обучения). Может использоваться ряд математических методов оптимизации, некоторые из которых имеют собственные параметры. Например, оптимизация стохастического градиентного спуска требует скорости обучения или расписания обучения. Некоторые методы оптимизации требуют порога сходимости.

Алгоритмы настройки гиперпараметров:

  • Поиск по сетке Поиск по сетке, соответствующий своему названию, выбирает сетку значений гиперпараметров, оценивает каждое из них и возвращает победителя. Например, если гиперпараметр - это количество листьев в дереве решений, то сетка может быть 10, 20, 30,…, 100. Поиск по сетке чрезвычайно прост в настройке и тривиален для распараллеливания. Это самый дорогой метод с точки зрения общего времени вычислений. Однако при параллельном запуске они быстро показывают время на настенных часах.
  • Случайный поиск. Случайный поиск - это небольшая разновидность поиска по сетке. Вместо поиска по всей сетке случайный поиск оценивает только случайную выборку точек на сетке. Это делает случайный поиск намного дешевле, чем поиск по сетке.
  • Байесовская оптимизация Байесовская оптимизация использует предварительные знания об успехе с комбинациями гиперпараметров для выбора следующего лучшего.
  • Ансамблевое обучение Ансамбли объединяют несколько моделей машинного обучения, каждая из которых находит различные закономерности в данных, чтобы обеспечить более точное решение. Эти методы могут как улучшить производительность, поскольку они фиксируют больше тенденций, так и уменьшить переобучение, поскольку окончательный прогноз является консенсусом многих моделей. Это может быть пакетирование, повышение или суммирование.

6. перекрестная проверка

Перекрестная проверка - одна из важнейших концепций моделирования данных. Перекрестная проверка - это метод, который включает в себя резервирование определенного образца набора данных, на котором вы не обучаете модель. Позже вы протестируете свою модель на этом образце перед окончательной доработкой.

Что такое робастная регрессия?

Надежная регрессия может использоваться в любой ситуации, в которой вы бы использовали регрессию наименьших квадратов. При подборе регрессии по методу наименьших квадратов мы можем найти некоторые выбросы или точки данных с высоким кредитным плечом. Мы решили, что эти точки данных не являются ошибками ввода данных и не принадлежат к другой совокупности, чем большинство наших данных. Так что у нас нет веских причин исключать их из анализа. Устойчивая регрессия может быть хорошей стратегией, поскольку это компромисс между полным исключением этих точек из анализа и включением всех точек данных и их равным обращением в регрессии OLS. Идея надежной регрессии состоит в том, чтобы взвесить наблюдения по-разному в зависимости от того, насколько хорошо эти наблюдения ведут себя. Грубо говоря, это форма взвешенной и переувзвешенной регрессии наименьших квадратов.

- ›Модель регрессии с OLS (обыкновенными наименьшими квадратами) весьма чувствительна к выбросам. Чтобы решить эту проблему, мы можем использовать метод WLS (взвешенных наименьших квадратов) для определения оценок коэффициентов регрессии. Здесь меньше веса придается выбросам или точкам с высоким рычагом в подгонке, что делает эти точки менее значимыми.

В основном это полезно в:

  • Одним из примеров, когда следует рассматривать робастную оценку, является сильное подозрение на гетероскедастичность. В гомоскедастической модели предполагается, что дисперсия члена ошибки постоянна для всех значений x. Гетероскедастичность позволяет дисперсии зависеть от x, что более точно для многих реальных сценариев.
  • Другая распространенная ситуация, в которой используется надежная оценка, возникает, когда данные содержат выбросы. При наличии выбросов, которые не являются результатом того же процесса генерации данных, что и остальные данные, оценка методом наименьших квадратов неэффективна и может быть необъективной. Поскольку прогнозы методом наименьших квадратов перетаскиваются в сторону выбросов, а дисперсия оценок искусственно завышается, в результате выбросы могут быть замаскированы.

Хотя иногда утверждается, что метод наименьших квадратов (или классические статистические методы в целом) являются надежными, они надежны только в том смысле, что частота ошибок типа I не увеличивается при нарушениях модели. Фактически, частота ошибок типа I имеет тенденцию быть ниже номинального уровня, когда присутствуют выбросы, и часто наблюдается резкое увеличение частоты ошибок типа II. Уменьшение количества ошибок первого типа было названо консерватизмом классических методов.

Взвешенный метод наименьших квадратов / обобщенный метод наименьших квадратов

Как в обычном методе наименьших квадратов, так и в подходе максимального правдоподобия к оценке параметров, мы сделали предположение о постоянной дисперсии, то есть дисперсия наблюдения одинакова независимо от значений связанных с ней независимых переменных, и поскольку объясняющие переменные определяют среднее значение наблюдения, мы предполагаем, что дисперсия наблюдения не связана со средним значением.

Как в обычном подходе наименьших квадратов, так и в подходе максимального правдоподобия к оценке параметров, мы сделали предположение о постоянной дисперсии, то есть дисперсия наблюдения одинакова независимо от значений связанных с ней независимых переменных, и поскольку объясняющие переменные определяют среднее значение наблюдения, мы предполагаем, что дисперсия наблюдения не связана со средним значением

Другие формы регрессии:

  • Обобщенный метод наименьших квадратов
  • Оценки максимального правдоподобия
  • Байесовская регрессия
  • Регрессия ядра
  • Гауссовская регрессия

Погрузитесь в кросс-валидацию

Перекрестная проверка - это метод, который включает в себя резервирование определенного образца набора данных, на котором вы не обучаете модель. Позже вы протестируете свою модель на этом образце перед окончательной доработкой.

  • Оставьте одну перекрестную проверку (LOOCV)

В этом подходе мы резервируем только одну точку данных из доступного набора данных и обучаем модель остальным данным. Этот процесс повторяется для каждой точки данных. У этого также есть свои преимущества и недостатки. Посмотрим на них:

Мы используем все точки данных, поэтому смещение будет низким. Мы повторяем процесс перекрестной проверки n раз (где n - количество точек данных), что приводит к более высокому времени выполнения. тест против одной точки данных. Итак, на нашу оценку сильно влияют данные. Если точка данных окажется выбросом, это может привести к большему разбросу

LOOCV не учитывает одну точку данных. Точно так же вы можете оставить p обучающих примеров, чтобы иметь набор валидации размера p для каждой итерации. Это называется LPOCV (перекрестная проверка исключения P).

  • K-кратная перекрестная проверка

Ниже приведены шаги для этого:

  • Случайным образом разделите весь набор данных на k "складок"
  • Для каждой k-кратной кратности в наборе данных постройте свою модель на k - 1 кратности набора данных. Затем протестируйте модель, чтобы проверить эффективность для k-го раза
  • Запишите ошибку, которую вы видите в каждом из прогнозов.
  • Повторяйте это до тех пор, пока каждая из k-складок не станет тестовым набором.
  • Среднее значение ваших k записанных ошибок называется ошибкой перекрестной проверки и будет служить вашей метрикой производительности для модели. Ниже представлена ​​визуализация k-кратной проверки при k = 10.

Стратифицированная k-кратная перекрестная проверка

Стратификация - это процесс переупорядочивания данных таким образом, чтобы каждая сгибка была хорошим представителем целого. Например, в задаче двоичной классификации, где каждый класс составляет 50% данных, лучше всего расположить данные так, чтобы в каждом сгибе каждый класс составлял примерно половину экземпляров. Как правило, это лучший подход при работе с систематической ошибкой и дисперсией. Случайно выбранная складка может неадекватно представлять второстепенный класс, особенно в тех случаях, когда существует огромный дисбаланс классов.

Перекрестная проверка для временных рядов

Разделение набора данных временных рядов случайным образом не работает, потому что временная часть ваших данных будет испорчена. Для задачи прогнозирования временных рядов мы выполняем перекрестную проверку следующим образом.

Складки для перекрестной оценки временных рядов создаются методом прямой цепочки. Предположим, у нас есть временной ряд для годового потребительского спроса на продукт в течение периода n лет.

Состязательная проверка

При работе с реальными наборами данных часто бывают случаи, когда наборы тестов и обучения сильно различаются. В результате методы внутренней перекрестной проверки могут давать баллы, которые даже не соответствуют оценкам теста. В таких случаях состязательная проверка предлагает интересное решение.

Общая идея состоит в том, чтобы проверить степень сходства между обучением и тестами с точки зрения распределения функций. Если это не так, мы можем подозревать, что они совсем другие. Эту интуицию можно количественно оценить, объединив наборы для обучения и тестирования, присвоив метки 0/1 (0 - поезд, 1-тест) и оценив задачу бинарной классификации.

Глубокое погружение в регуляризацию

Это форма регрессии, которая ограничивает / регулирует или сужает оценки коэффициентов до нуля. Другими словами, этот метод препятствует изучению более сложной или гибкой модели, чтобы избежать риска переобучения.

Двумя наиболее часто используемыми методами являются регуляризация L1 или Лассо и регуляризация L2 или Риджа. Оба эти метода накладывают штраф на модель для достижения демпфирования величины, как упоминалось ранее. В случае L1 сумма абсолютных значений весов применяется в качестве штрафа, а в случае L2 сумма квадратов значений весов применяется в качестве штрафа. Существует гибридный тип регуляризации под названием Elastic Net, который представляет собой комбинацию L1 и L2.

Простое соотношение для линейной регрессии выглядит так. Здесь Y представляет усвоенное отношение, а β представляет оценки коэффициентов для различных переменных или предикторов (X). Y ≈ β0 + β1X1 + β2X2 +… + βpXp

Процедура подбора включает функцию потерь, известную как остаточная сумма квадратов или RSS. Коэффициенты выбираются так, чтобы минимизировать эту функцию потерь.

Хребет

  • RSS модифицируется путем добавления величины усадки. Теперь коэффициенты оцениваются путем минимизации этой функции.
  • Здесь λ - параметр настройки, который определяет, насколько мы хотим снизить гибкость нашей модели.
  • Когда λ = 0, штрафной член не действует, и оценки, полученные с помощью регрессии гребня, будут равны наименьшим квадратам.
  • Однако при λ → ∞ влияние штрафа за усадку возрастает, и оценки коэффициента регрессии гребня будут приближаться к нулю. * Как видно, выбор хорошего значения λ имеет решающее значение. Для этого пригодится перекрестная проверка.
  • Оценки коэффициентов, полученные этим методом, также известны как норма L2.

ПРИМЕЧАНИЕ. Коэффициенты, полученные с помощью стандартного метода наименьших квадратов, эквивариантны по шкале, т.е. если мы умножаем каждый входной параметр на c, то соответствующие коэффициенты масштабируются с коэффициентом 1 / c. Следовательно, независимо от того, как масштабируется предиктор, умножение предиктора и коэффициента (Xjβj) остается неизменным. Однако это не относится к регрессии гребня, и поэтому нам необходимо стандартизировать предикторы или привести предикторы к той же шкале, прежде чем выполнять регрессию гребня.

Лассо

Лассо - еще один вариант, в котором указанная выше функция минимизирована. Ясно, что этот вариант отличается от регрессии гребня только штрафом за высокие коэффициенты. В качестве штрафа он использует | βj | (модуль) вместо квадратов β. В статистике это известно как норма L1.

Рассмотрим 2 параметра в данной задаче. Тогда, согласно приведенной выше формулировке, регресс гребня выражается как β¹² + β²² ≤ s. Это означает, что коэффициенты регрессии гребня имеют наименьшее значение RSS (функция потерь) для всех точек, лежащих в пределах круга β¹² + β²² ≤ s.

Аналогично, для лассо уравнение принимает следующий вид: | β1 | + | β2 | ≤ s. Это означает, что коэффициенты лассо имеют наименьшую RSS (функцию потерь) для всех точек, лежащих в пределах ромба, задаваемого формулой | β1 | + | β2 | ≤ s.

  • Поскольку регрессия гребня имеет круговое ограничение без острых точек, это пересечение обычно не происходит на оси, и поэтому оценки коэффициента регрессии гребня будут исключительно ненулевыми.
  • Однако ограничение лассо имеет углы на каждой из осей, поэтому эллипс часто пересекает область ограничения по оси. Когда это происходит, один из коэффициентов будет равен нулю. В более высоких измерениях (где параметров намного больше 2) многие оценки коэффициентов могут одновременно равняться нулю.
  • Это проливает свет на очевидный недостаток регрессии гребня - интерпретируемость модели. Это сократит коэффициенты для наименее важных предикторов почти до нуля. Но это никогда не сделает их равными нулю. Другими словами, окончательная модель будет включать все предикторы. Однако в случае лассо штраф L1 заставляет некоторые из оценок коэффициентов быть точно равными нулю, когда параметр настройки λ достаточно велик. Следовательно, метод лассо также выполняет выбор переменных и, как говорят, дает разреженные модели.

Как выбрать значение λ:

Регуляризация значительно снижает дисперсию модели без существенного увеличения ее смещения. Таким образом, параметр настройки λ, используемый в описанных выше методах регуляризации, контролирует влияние на смещение и дисперсию. По мере увеличения значения λ уменьшается значение коэффициентов и, таким образом, уменьшается дисперсия. До определенного момента это увеличение λ выгодно, поскольку оно только снижает дисперсию (следовательно, позволяет избежать переобучения) без потери каких-либо важных свойств данных. Но после определенного значения модель начинает терять важные свойства, что приводит к смещению в модели и, как следствие, к ее неполному соответствию. Поэтому следует тщательно выбирать значение λ.

Давайте закончим эту статью несколькими интересными вопросами -

Можем ли мы использовать линейную регрессию для анализа временных рядов?

Можно использовать линейную регрессию для анализа временных рядов, но результаты не обнадеживают. Так что, как правило, этого делать не рекомендуется. Причины этого -

  • Данные временных рядов в основном используются для предсказания будущего, но линейная регрессия редко дает хорошие результаты для будущего предсказания, поскольку не предназначена для экстраполяции.
  • В большинстве случаев данные временных рядов имеют закономерность, например, в часы пик, праздничные сезоны и т. Д., Которые, скорее всего, будут рассматриваться как выбросы в линейном регрессионном анализе.

Вы запускаете регрессию на разных подмножествах данных, и в каждом подмножестве бета-значение для определенной переменной сильно варьируется. В чем может быть проблема?

Этот случай подразумевает, что набор данных неоднороден. Итак, чтобы преодолеть эту проблему, набор данных должен быть сгруппирован в разные подмножества, а затем для каждого кластера должны быть построены отдельные модели. Другой способ справиться с этой проблемой - использовать непараметрические модели, такие как деревья решений, которые могут довольно эффективно работать с разнородными данными.

Обычно коэффициенты (бета) представляют уровень важности каждой переменной. Если вы видите, что коэффициент меняется от одной модели (подмножества) к другой модели (другому подмножеству), это означает, что важность этой конкретной переменной в каждом наборе данных разная.

Перекрестная проверка, сетка

Ваша линейная регрессия не работает и сообщает, что существует бесконечное количество наилучших оценок для коэффициентов регрессии. Что могло быть не так?

Это условие возникает, когда между некоторыми переменными существует идеальная корреляция (положительная или отрицательная). В этом случае для коэффициентов нет однозначного значения, а значит, и возникает данное условие.

Верно ли, что если две переменные коррелируют, они всегда имеют линейную связь?

Нет, корреляция НЕ подразумевает линейности. Самый простой пример ... найдите коэффициент корреляции между числами и их квадратами. Вы получите высокий коэффициент корреляции, но соотношение, очевидно, квадратичное.

В чем разница между коллинеарностью и корреляцией?

корреляция измеряет взаимосвязь между двумя переменными. Когда эти две переменные настолько сильно коррелированы, что они объясняют друг друга (до такой степени, что вы можете предсказать одну переменную с другой), тогда мы имеем коллинеарность (или мультиколлинеарность).

Коллинеарность - это линейная связь между двумя предикторами. Мультиколлинеарность - это ситуация, когда два или более предиктора сильно линейно связаны. Как правило, абсолютный коэффициент корреляции ›0,7 между двумя или более предикторами указывает на наличие мультиколлинеарности. «Предикторы» - вот в чем фокус здесь. Корреляция между «предсказателем и ответом» является хорошим показателем большей предсказуемости. Но корреляция «между предикторами» - это проблема, которую необходимо исправить, чтобы получить надежную модель.

Как я могу получить значение R-квадрата 1 (соответствует 100%)?

R2 = 1 указывает на идеальное соответствие. То есть вы объяснили все расхождения, которые нужно объяснить. вы всегда можете получить R2 = 1, если:

  • у вас есть количество прогнозирующих переменных, равное количеству наблюдений, или
  • если вы подсчитали перехват, количество наблюдений - 1.
  • построить многочлен n-й степени, где n - размер выборки. Каждая степень добавляет новый излом через одно наблюдение.

В любом случае 20 параметров идеально описывают 20 точек данных. Такая модель называется только что идентифицированной. Хотя это дает вам очень желаемую идеальную посадку ... это, по сути, бессмысленно.

ОТСУТСТВИЕ ПЕРЕМЕННОГО СМЕЩЕНИЯ

Систематическая ошибка пропущенной переменной - частая и серьезная проблема регрессионного анализа. Как правило, проблема возникает, если не учитывать все релевантные переменные в регрессии.

Теорема Гаусса-Маркова

утверждает, что если ваша модель линейной регрессии удовлетворяет первым шести классическим предположениям, то обычная регрессия методом наименьших квадратов (МНК) дает несмещенные оценки, которые имеют наименьшую дисперсию из всех возможных линейных оценок.

критическим моментом является то, что когда вы удовлетворяете классическим предположениям, вы можете быть уверены, что получаете наилучшие возможные оценки коэффициентов. Теорема Гаусса-Маркова не утверждает, что это просто наилучшие возможные оценки для процедуры OLS, но наилучшие возможные оценки для любой оценки линейной модели.

Теорема Гаусса-Маркова: OLS - СИНИЙ! - Лучший линейный объективный оценщик

На этом пока все ..

Если вам понравилась эта статья, не забудьте показать свою поддержку, хлопнув в отношении этой статьи. Эта статья в основном представляет собой сборник многих статей из среды, аналитической видьи, обновленного материала и т. Д.

Вы также можете подписаться на меня в Instagram.