Простая линейная регрессия: наиболее простая модель, которая объясняет связь между зависимой переменной и одной независимой переменной с помощью прямой линии. Однако в реальном сценарии одной независимой переменной может быть недостаточно для объяснения выходной или зависимой переменной.

Итак, было бы неплохо использовать несколько переменных для объяснения зависимой переменной.

Преимущества:

  1. Добавление переменных помогает добавить информацию о дисперсии в независимой переменной.
  2. В целом, мы ожидаем, что объяснительная сила будет расти с увеличением переменных.

Следовательно, это приводит нас к множественной линейной регрессии, которая является расширением простой линейной регрессии.

Ниже приведены несколько аспектов, которые необходимо учитывать при переходе от SLR к MLR:

  1. Переобучение: переобучение - это ошибка моделирования, которая возникает, когда функция слишком близко подходит к ограниченному набору точек данных. Когда мы продолжаем увеличивать переменные в модели, модель может «слишком хорошо» соответствовать набору поездов, а может не хорошо обобщаться. Это приведет к высокой точности поезда и низкой точности испытаний, что является классическим признаком переобучения.

2. Мультиколлинеарность: мультиколлинеарность - это состояние очень высокой взаимной корреляции или взаимосвязей между независимыми переменными. Следовательно, это тип нарушения данных, и если они присутствуют в данных, статистические выводы, сделанные в отношении данных, могут быть ненадежными.

Мультиколлинеарность в основном влияет на:

1) Интерпретация: применимо ли «изменение в Y, когда все остальные остаются постоянными»?

2) Вывод:

а. Коэффициенты сильно колеблются, знаки могут инвертировать

б. p-значения, следовательно, не являются надежными

Обнаружение мультиколлинеарности:

Ниже приведены два способа обнаружения мультиколлинеарности в модели.

  1. Анализ парных корреляций или корреляций между независимыми переменными:

Некоторые из пары переменных могут иметь высокую корреляцию, поэтому при построении модели одна из переменных из каждой пары переменных может оказаться избыточной для модели.

2. Проверка коэффициента инфляции дисперсии (VIF):

Иногда парных корреляций недостаточно, например, одна переменная не может полностью объяснить какую-то другую переменную, но некоторые из объединенных переменных могут это сделать. По сути, VIF вычисляет, насколько хорошо одна независимая переменная объясняется всеми другими независимыми переменными вместе взятыми.

Обычная эвристика для VIF:

a) Переменная со значением VIF, равным 10, считается высоким значением и должна быть исключена.

б) Переменная со значением VIF, равным 5, считается допустимой, но ее стоит проверить.

c) Переменную со значением VIF менее 5 не нужно исключать.

Как бороться с мультиколлинеарностью:

Следующие методы могут использоваться для решения проблемы мультиколлинеарности;

а) Отбрасывание переменных

i) Отбросьте переменную, которая сильно коррелирует с другими

ii) Выберите интерпретируемую бизнес-переменную.

б) Создайте новую переменную, используя взаимодействия старых переменных.

i) Добавить функции взаимодействия, т. е. функции, полученные с использованием некоторых из оригинальных

ii) Преобразования переменных

3) Выбор функций:

Ниже приведены методы оптимального выбора функций:

I. Выбор функций вручную:

а) Постройте модель со всеми функциями

б) Отбросьте функции, которые наименее полезны при прогнозировании (высокое значение p)

c) Отбросьте функции, которые являются избыточными (используя корреляции и VIF)

г) Восстановите модель и повторите

II. Автоматический выбор функций:

а) Рекурсивное исключение признаков (RFE)

б) Прямой / обратный / пошаговый выбор на основе AIC

Обычно рекомендуется использовать комбинацию автоматического (грубая настройка) + ручного (точная настройка) выбора, чтобы получить оптимальную модель.