Часть — 1: Выбор подмножества

Регрессионные модели предполагают линейную связь между предикторами и переменными отклика. Они пытаются оценить коэффициенты следующего выражения.

А подгонка модели обычно выполняется с использованием метода наименьших квадратов. Однако метод наименьших квадратов не всегда дает удовлетворительные результаты. На самом деле есть две основные причины, по которым нам следует рассмотреть возможность использования других процедур подгонки по методу наименьших квадратов.

  1. Точность прогноза→ Если количество наблюдений ненамного больше, чем количество предикторов, тогда может быть высокая дисперсия, и поэтому можно увидеть плохие прогнозы. Кроме того, если количество предикторов больше, чем количество наблюдений, единственного решения выражения больше нет, поэтому дисперсия становится бесконечной, и метод становится бесполезным.
  2. Интерпретируемость модели→ Часто бывает так, что некоторые переменные, используемые в модели множественной регрессии, не связаны с ответом. Включение таких переменных приводит к ненужной сложности результирующей модели. Важно установить соответствующие коэффициенты этих переменных равными нулю. Принимая во внимание, что метод наименьших квадратов крайне маловероятен для получения каких-либо оценок коэффициентов, которые точно равны нулю.

Следовательно, для решения вышеуказанных проблем мы можем использовать следующие три подхода.

  1. Выбор подмножества.Мы выбираем только те предикторы, которые связаны с переменной ответа. Затем мы подбираем модель, используя метод наименьших квадратов для этого сокращенного набора переменных.
  2. Усадка.Мы подбираем модель, включающую все предикторы. Однако оценочные коэффициенты сжаты до нуля. Это сжатие (регуляризация) в некоторой степени снижает дисперсию. Некоторые из коэффициентов могут быть оценены точно равными нулю, в зависимости от того, какой тип усадки выполняется.
  3. Уменьшение размерности. Мы проецируем предикторы p в M-мерное подпространство, где M меньше, чем p. M различных линейных комбинаций вычисляются и используются в качестве окончательных предикторов для подбора линейной модели с использованием метода наименьших квадратов.

Выбор подмножества

Существует два основных способа выбора подмножеств предикторов.

  1. Лучший выбор подмножества
  2. Поэтапный выбор модели

Лучший выбор подмножества

В этом методе мы подбираем модель регрессии наименьших квадратов для каждой возможной комбинации предикторов p. Затем мы определяем лучшую модель из всех этих моделей. Следующий алгоритм объяснит это лучше.

Алгоритм (лучший выбор подмножества)

  1. Пусть Mo обозначает нулевую модель, которая не содержит предикторов. Эта модель просто предсказывает среднее значение выборки для каждого наблюдения.
  2. Для k =1,2,3,…p:
  3. Соответствуйте всем (p C k) моделям, которые содержат ровно k предикторов.
  4. Выберите лучшую из этих (p C k) моделей и назовите ее Mk. Здесь лучшая определяется как модель с наименьшим RSS или наибольшим R2.
  5. Выберите одну лучшую модель из числа Mo,….., Mp, используя ошибку прогнозирования перекрестной проверки, AIC, BIC или R2.

В приведенном выше алгоритме шаг 2 определяет лучшую модель для каждого размера подмножества и сводит задачу с одной из 2p возможных моделей к p+1 возможной модели.

Теперь, чтобы выбрать единственную лучшую модель, мы должны просто выбрать один из этих p + 1 вариантов. Эту задачу необходимо выполнять с осторожностью, поскольку RSS этих моделей уменьшается, а R2 увеличивается по мере увеличения количества признаков. Следовательно, если мы используем эту статистику для выбора наилучшей модели, мы всегда будем получать модель, включающую все переменные. Проблема в том, что низкий RSS или высокий R2 указывают на модель с низкой ошибкой обучения, тогда как мы хотим выбрать модель с низкой ошибкой теста. Поэтому на шаге 3 мы используем ошибку прогнозирования с перекрестной проверкой, чтобы выбрать лучший.

Хотя выбор наилучшего подмножества является простым и привлекательным подходом, он требует значительных вычислительных ресурсов. Количество возможных моделей для рассмотрения растет экспоненциально по мере увеличения p. Таким образом, если p = 10, то необходимо рассмотреть 1024 случая, а если p = 20, количество возможностей возрастает до миллиона. Только представьте это число с 40 предикторами.

Эту проблему можно в некоторой степени решить с помощью методов пошагового выбора, которые обсуждаются в следующем разделе.

Поэтапный выбор

Существует два способа реализации пошагового выбора.

  1. Выбор вперед
  2. Обратный выбор

Выбор форвардов

Прямой пошаговый выбор начинается без предикторов, а затем добавляется предикторы
в модель по одному за раз. На каждом шаге в модель добавляется переменная с наибольшим дополнительным улучшением соответствия. Процедура прямого пошагового выбора может быть понята следующим алгоритмом.

Алгоритм (прямой выбор)

  1. Пусть Мо будет моделью без предикторов.
  2. Для k=0,1,2…,p-1:
  3. Рассмотрим все модели p — k, которые дополняют предикторы в Mk одним дополнительным предиктором.
  4. Выберите лучшую из этих p — k моделей, назовите ее Mk+1. Здесь лучший определяется как имеющий наименьший RSS или наибольший R2.
  5. Выберите единственную лучшую модель из Mo,…, Mp, используя перекрестную проверку ошибки.

В отличие от метода наилучшего подмножества, в котором используются 2p-модели, прямой пошаговый отбор включает подбор моделей 1 + p(p+1)/2. Это огромная разница. Если мы рассмотрим p = 20, количество моделей уменьшится до 211 в прямом выборе по сравнению с более чем миллионом моделей в методе наилучшего подмножества.

На шаге 2 описанного выше алгоритма мы идентифицируем лучшую модель среди тех p−k, которые дополняют Mk одним дополнительным предиктором. Мы можем сделать это, просто выбрав модель с самым низким RSS или самым высоким R2. Однако на шаге 3 мы должны определить лучшую модель среди набора моделей с разным количеством переменных. Прямой пошаговый выбор в вычислительном отношении лучше, чем выбор наилучшего подмножества.

Несмотря на то, что пошаговая пошаговая пошаговая последовательность, кажется, хорошо работает на практике, она не всегда позволяет найти наилучшую возможную модель. Например, предположим, что в данном наборе данных с p = 3 предикторами наилучшая возможная модель с одной переменной содержит X1, а наилучшая возможная модель с двумя переменными содержит X2 и X3. Тогда прямой пошаговый отбор не сможет выбрать наилучшую возможную модель с двумя переменными, потому что M1 будет содержать X1, поэтому M2 также должен содержать X1 вместе с одной дополнительной переменной.

Обратный выбор

Обратный выбор работает несколько противоположно прямому выбору. Он начинается с полной модели наименьших квадратов, содержащей все предикторы p, а затем по одному удаляется наименее полезный предиктор. Давайте рассмотрим приведенный ниже алгоритм, чтобы понять метод обратного выбора.

Алгоритм (обратный выбор)

  1. Пусть Mp обозначает полную модель, содержащую все p предикторов.
  2. При k = p, p − 1,…, 1:
  3. Рассмотрим все k моделей, которые содержат все предикторы из Mk, кроме одного, всего k - 1 предикторов.
  4. Выберите лучшую из этих k моделей и назовите ее Mk−1. Здесь лучший определяется как имеющий наименьший RSS или самый высокий R2.
  5. Выберите одну лучшую модель из числа M0,…,Mp, используя перекрестную проверку ошибки прогнозирования, Cp (AIC), BIC или скорректированный R2.

Подход обратного выбора также ищет только модели 1+p(p+1)/2, поэтому его можно применять в условиях, когда p слишком велико для применения наилучшего выбора подмножества. Как и прямой пошаговый выбор, обратный выбор не гарантирует получение наилучшей модели, содержащей подмножество p предикторов. Обратный отбор требует, чтобы количество выборок n было больше, чем количество переменных p, чтобы можно было подогнать полную модель. Напротив, пошаговое продвижение вперед можно использовать, даже если n‹p.

Если вы новичок в науке о данных и машинном обучении и вам интересно, с чего начать свое путешествие, проверьте приведенные ниже ссылки, где я упомянул пошаговый метод изучения науки о данных, с множеством источников на ваш выбор.



Ссылка ниже поможет вам выбрать один из лучших курсов Data Science на Coursera. Чтобы узнать больше о таких блогах, следите за обновлениями. Счастливого обучения.