Простая линейная регрессия: наиболее простая модель, которая объясняет связь между зависимой переменной и одной независимой переменной с помощью прямой линии. Однако в реальном сценарии одной независимой переменной может быть недостаточно для объяснения выходной или зависимой переменной.
Итак, было бы неплохо использовать несколько переменных для объяснения зависимой переменной.
Преимущества:
- Добавление переменных помогает добавить информацию о дисперсии в независимой переменной.
- В целом, мы ожидаем, что объяснительная сила будет расти с увеличением переменных.
Следовательно, это приводит нас к множественной линейной регрессии, которая является расширением простой линейной регрессии.
Ниже приведены несколько аспектов, которые необходимо учитывать при переходе от SLR к MLR:
- Переобучение: переобучение - это ошибка моделирования, которая возникает, когда функция слишком близко подходит к ограниченному набору точек данных. Когда мы продолжаем увеличивать переменные в модели, модель может «слишком хорошо» соответствовать набору поездов, а может не хорошо обобщаться. Это приведет к высокой точности поезда и низкой точности испытаний, что является классическим признаком переобучения.
2. Мультиколлинеарность: мультиколлинеарность - это состояние очень высокой взаимной корреляции или взаимосвязей между независимыми переменными. Следовательно, это тип нарушения данных, и если они присутствуют в данных, статистические выводы, сделанные в отношении данных, могут быть ненадежными.
Мультиколлинеарность в основном влияет на:
1) Интерпретация: применимо ли «изменение в Y, когда все остальные остаются постоянными»?
2) Вывод:
а. Коэффициенты сильно колеблются, знаки могут инвертировать
б. p-значения, следовательно, не являются надежными
Обнаружение мультиколлинеарности:
Ниже приведены два способа обнаружения мультиколлинеарности в модели.
- Анализ парных корреляций или корреляций между независимыми переменными:
Некоторые из пары переменных могут иметь высокую корреляцию, поэтому при построении модели одна из переменных из каждой пары переменных может оказаться избыточной для модели.
2. Проверка коэффициента инфляции дисперсии (VIF):
Иногда парных корреляций недостаточно, например, одна переменная не может полностью объяснить какую-то другую переменную, но некоторые из объединенных переменных могут это сделать. По сути, VIF вычисляет, насколько хорошо одна независимая переменная объясняется всеми другими независимыми переменными вместе взятыми.
Обычная эвристика для VIF:
a) Переменная со значением VIF, равным 10, считается высоким значением и должна быть исключена.
б) Переменная со значением VIF, равным 5, считается допустимой, но ее стоит проверить.
c) Переменную со значением VIF менее 5 не нужно исключать.
Как бороться с мультиколлинеарностью:
Следующие методы могут использоваться для решения проблемы мультиколлинеарности;
а) Отбрасывание переменных
i) Отбросьте переменную, которая сильно коррелирует с другими
ii) Выберите интерпретируемую бизнес-переменную.
б) Создайте новую переменную, используя взаимодействия старых переменных.
i) Добавить функции взаимодействия, т. е. функции, полученные с использованием некоторых из оригинальных
ii) Преобразования переменных
3) Выбор функций:
Ниже приведены методы оптимального выбора функций:
I. Выбор функций вручную:
а) Постройте модель со всеми функциями
б) Отбросьте функции, которые наименее полезны при прогнозировании (высокое значение p)
c) Отбросьте функции, которые являются избыточными (используя корреляции и VIF)
г) Восстановите модель и повторите
II. Автоматический выбор функций:
а) Рекурсивное исключение признаков (RFE)
б) Прямой / обратный / пошаговый выбор на основе AIC
Обычно рекомендуется использовать комбинацию автоматического (грубая настройка) + ручного (точная настройка) выбора, чтобы получить оптимальную модель.