В предыдущих статьях я объяснил, что такое проблемы регрессии и как мы можем использовать простую линейную регрессию для решения некоторых из них.



30 дней Data Science — День 1: Проблемы регрессии
Путешествие в тысячу миль начинается с одного шага
.medium.com»





Правда в том, что на самом деле мало что зависит только от одного фактора, поэтому поиск единственного лучшего предсказателя может привести к разочарованию. Это не означает, что линейная регрессия не является хорошим методом решения проблем, но использование одиночной линейной регрессии в качестве панацеи совершенно не подходит.

Но не беспокойтесь, семейство моделей линейной регрессии состоит из многих членов, и после того, как мы отказались от простой модели линейной регрессии из-за того, что она не очень полезна (в большинстве случаев) помимо учебных целей, сегодня мы встретимся с ее старшим братом: множественной линейной регрессией. Регрессия.

Что такое множественная линейная регрессия?

Как я объяснял ранее, в статистике линейная регрессия — это линейный подход к моделированию взаимосвязи между скалярным откликом и одной или несколькими независимыми переменными.

  • Случай одной объясняющей переменной называется простой линейной регрессией.
  • Для более чем одной объясняющей переменной процесс называется множественной линейной регрессией.

По сути, подход множественной линейной регрессии является расширением простой линейной регрессии, что позволяет этой модели учитывать гораздо больше факторов при определении наилучшей линии, соответствующей нашим данным.

Как и простые модели линейной регрессии, модели множественной линейной регрессии подпадают под категорию методов обучения с учителем, потому что нам необходимо знать данные (результат), прежде чем мы сможем создать какую-либо модель.

Зачем нам нужна множественная линейная регрессия?

Предположим, мы хотим предсказать цену дома. Например, мы можем увидеть, влияет ли количество ванных комнат в доме на цену, при прочих равных условиях. Если бы у нас была только одна переменная, влияющая на нашу зависимую переменную (цены на жилье), мы бы создали простую модель линейной регрессии. Но что, если бы мы считали, что на цены на жилье влияет несколько факторов (например, вид, район, расположение до ближайшего города).

Именно здесь множественная линейная регрессия становится отличным инструментом. Множественная регрессия может включать в модель множество независимых переменных, чтобы объяснить, как эти независимые переменные влияют на зависимую переменную.

В нашем примере выше, если нам нужна модель, которая более кратко объясняет нашу зависимую переменную, мы можем добавить такие переменные, как школьный округ, уровень преступности или другую переменную, которая может помочь предсказать вашу целевую переменную (цену).

Время математической формулы

Когда вы понимаете, что это такое: абстракция XD

В конце концов, цели алгоритма линейной регрессии можно описать так:

  • Найдите оптимальный вес(который дает наименьшую ошибку) для каждого из предикторов (независимых переменных), которые мы считаем важными для нашей цели (зависимая переменная).
  • Найдите значение члена, которое остается постоянным для всех данных(также называется точкой пересечения по оси Y)
  • Найдите значение ошибки из-за случайности данных (это выборка, представляющая основную совокупность, а не саму совокупность.
  • Проверьте ошибку (или насколько неверна наша модель по сравнению с реальными данными) и уменьшите ее путем повторения.

Вот несколько определений, если вы не помните:

  • Независимая переменная. Это переменная, которую мы будем использовать в качестве предиктора (например, рост человека), и предполагается, что она оказывает прямое влияние на зависимую переменную.
  • Зависимая переменная. Это переменная, которую мы хотим предсказать (например, вес человека) на основе независимой переменной.
  • Ошибка (или остаток): разница между прогнозируемым значением и реальным значением.
  • Вес: значение, которое имеет каждый параметр в модели машинного обучения.
  • Убыток. Насколько ошибочны оценки нашей модели?

В случае простой модели линейной регрессии нам просто нужно найти вес предиктора, а окончательная формула будет выглядеть примерно так:

Когда мы переводим ее в модель множественной линейной регрессии, формула не сильно отличается, за исключением того, что каждый предиктор имеет свой вес (который, проще говоря, будет означать, какое влияние эта функция оказывает на цель).

Предположения модели

Как и любая модель, для правильной работы она принимает во внимание несколько допущений:

  1. Корреляция между зависимой и независимой переменными сильная, и зависимая переменная линейно связана с независимыми переменными.
  2. Независимые переменные не коррелируют друг с другом.
  3. Остатки должны быть нормально распределены, что означает, что ошибки не содержат важной информации.
  4. Остатки не должны содержать какой-либо закономерности.

Проблема работы с большим количеством функций

Поскольку мы имеем дело с большим количеством предикторов, мы сталкиваемся с возможностью иметь предикторы, которые связаны друг с другом. Это называется мультиколлинеарностью. Это уникальное явление для множественной регрессии, которое возникает, когда две переменные, которые должны быть независимыми, в действительности имеют высокую степень корреляции.

Корреляция – это связь между переменными, которая сообщает нам степень, в которой две переменные связаны друг с другом. Две переменные могут иметь положительную (изменение одной переменной вызывает изменение другой переменной в том же направлении), отрицательную (изменение одной переменной вызывает изменение другой переменной в противоположном направлении) или отсутствие корреляции.

Независимые переменные должны быть независимы друг от друга. Когда независимые переменные коррелированы, это означает, что изменения в одной переменной связаны со сдвигами в другой переменной, что создает систематическую ошибку.

Особенно, если корреляция чрезвычайно высока, это может привести к неправильным прогнозам, что приведет к неправильному толкованию.

Основываясь на нашем примере прогнозирования цен на жилье, давайте предположим, что у нас есть несколько характеристик, таких как жилая площадь в квадратных футах, участок в квадратных футах, квадратный фут выше (без подвала) и квадратный фут в подвале.

Мы можем предположить, что по мере увеличения площади подвала увеличивается и площадь помещений над подвалом. Точно так же мы предполагаем, что общая площадь дома будет увеличиваться вместе с этими переменными.

Как с этим бороться?

Во многих случаях мы можем не заметить незначительную мультиколлинеарность. Поэтому спросите себя, в чем проблема, которую вы пытаетесь решить, и какова ваша цель, а затем предпримите следующие шаги. Всегда полезно знать, что представляют собой ваши данные и как они себя ведут, прежде чем работать с ними.

Если мультиколлинеарность слишком велика, чтобы ее игнорировать, вам, возможно, придется расставить приоритеты, какую функцию следует использовать, чтобы ваша модель не была предвзятой.

Примеры из жизни

Измерение влияния удобрений и воды на урожайность.

Ученые-агрономы часто используют линейную регрессию для измерения влияния удобрений и воды на урожайность.

Например, ученые могут использовать разное количество удобрений и воды на разных полях и посмотреть, как это повлияет на урожайность. Они могут соответствовать модели множественной линейной регрессии, используя удобрения и воду в качестве переменных-предикторов и урожайность в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:

Урожайность = β0 + β1 (количество удобрений) + β2 (количество воды)

  • Коэффициент β0 будет представлять ожидаемую урожайность без удобрений и воды.
  • Коэффициент β1 будет представлять собой среднее изменение урожайности при увеличении количества удобрений на одну единицу при условии, что количество воды остается неизменным.
  • Коэффициент β2 будет представлять собой среднее изменение урожайности при увеличении количества воды на одну единицу при условии, что количество удобрений остается неизменным.

В зависимости от значений β1 и β2 ученые могут изменить количество удобрений и воды, используемых для получения максимальной урожайности.

Измеряйте влияние различных режимов тренировок на производительность игроков.

Исследователи данных для профессиональных спортивных команд часто используют линейную регрессию для измерения влияния различных режимов тренировок на производительность игроков.

Например, специалисты по данным в НБА могут проанализировать, как разное количество еженедельных занятий йогой и тяжелой атлетикой влияет на количество очков, набранных игроком. Они могут соответствовать модели множественной линейной регрессии, используя занятия йогой и занятия тяжелой атлетикой в ​​качестве переменных-предикторов и общее количество баллов, набранных в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:

Набранные баллы = β0 + β1 (занятия йогой) + β2 (занятия тяжелой атлетикой)

  • Коэффициент β0 будет представлять собой ожидаемое количество очков, набранных игроком, который участвует в нулевых занятиях йогой и нулевых занятиях тяжелой атлетикой.
  • Коэффициент β1 будет представлять среднее изменение в баллах, набранных при увеличении количества еженедельных занятий йогой на единицу, при условии, что количество еженедельных занятий тяжелой атлетикой остается неизменным.
  • Коэффициент β2 будет представлять собой среднее изменение в баллах, набранных при увеличении количества еженедельных занятий тяжелой атлетикой на единицу, при условии, что количество еженедельных занятий йогой остается неизменным.

В зависимости от значений β1 и β2 исследователи данных могут порекомендовать игроку более или менее еженедельные занятия йогой и тяжелой атлетикой, чтобы максимизировать набранные очки.

Подведение итогов

Линейная регрессия — мощный инструмент, но не панацея. Однако мало что в жизни зависит от одного единственного фактора, поэтому поиск единственного наилучшего предиктора может привести к разочарованию.

Множественная линейная регрессия работает аналогично, с той разницей, что она может учитывать множество независимых переменных и помогает нам понять, как они влияют на зависимую переменную. С добавлением большего количества предикторов возникает проблема мультиколлинеарности, которая относится к предикторам, связанным друг с другом, которые могут быть решены (или нет) в зависимости от нашей проблемы.

Спасибо за прочтение! Надеюсь, эта статья помогла вам понять принцип множественной линейной регрессии. Следите за новостями о моем путешествии по машинному обучению, подписавшись на меня на Medium: