Линейная регрессия — очень хороший и простой статистический метод. Однако иногда данные слишком сильно разбросаны, и линейной функции просто недостаточно. Иногда нам нужна более сложная функция, чтобы сделать хороший прогноз. Здесь мы могли бы использовать полиномиальную регрессию.

Простая линейная регрессия

Начнем с напоминания о том, что такое простая линейная регрессия. Это статистический метод, в котором мы пытаемся подобрать прямую линию и, используя ее функцию, пытаемся предсказать значение нового, невидимого значения для переменной x. Это очень простое объяснение, и более подробную информацию вы можете найти в моем предыдущем посте о простой линейной регрессии и множественной линейной регрессии. Тем не менее, я надеюсь, что в сочетании с приведенной ниже диаграммой это даст достаточно информации, чтобы легче понять полиномиальную регрессию.

Проблема

Иногда у нас может быть более сложное распределение данных. Некоторые из них мы не можем аппроксимировать прямой линией. Давайте представим, что вы едете на велосипеде вниз по склону. Начинаем с какой-то небольшой скорости, но со временем едем все быстрее и быстрее. Если мы измерим нашу скорость в 5 разных моментов, мы можем получить график, подобный приведенному ниже.

Здесь мы видим, что можем использовать простую линейную регрессию для прогнозирования скорости в случайно выбранное время. Но мы также можем видеть, что это не очень точно. В первый момент мы близки к правильному значению. Затем разница начинает увеличиваться, а затем снова уменьшается. Мы могли бы добиться большего успеха с другим уравнением. Может, квадратичный?

Полиномиальная регрессия

Теперь мы можем использовать полиномиальную регрессию. Ситуации, когда у нас есть более сложная связь между входными переменными и выходом, чем линейная.

На диаграмме мы видим более подходящую функциональную диаграмму, которая намного лучше соответствует нашим данным. Точнее, это диаграмма квадратного уравнения.

В заключение, полиномиальная регрессия — это статистический метод, в котором мы используем функции с более высоким показателем для формирования более сложных форм.

Более конкретное математическое выражение

В предыдущем примере я использовал квадратное уравнение. Но мы могли бы иметь любую другую степень уравнения. Вот почему мы можем использовать приведенное выше уравнение как общий термин, и мы выбрали коэффициенты A, чтобы лучше всего соответствовать нашей модели.

Заключение

Простые и множественные линейные регрессии — прекрасные модели, но они не подходят для всех случаев использования. Если вы хотите использовать регрессию, полезно визуализировать данные, чтобы лучше понять, какая функция лучше всего подходит для них. Если это более сложно, полиномиальный может быть лучшим выбором.

В этом посте я не рассматривал какие-либо примеры кодирования или базовую теорию, потому что считаю, что стоит понять идею, прежде чем вдаваться в подробности. Я расскажу о них в другом посте. На данный момент любые примеры кода, которые у меня есть, вы можете найти в моем репозитории Github, который следует за курсом Машинное обучение Udemy от А до Я.

Чтобы узнать больше, вы можете подписаться на меня в Twitter, LinkedIn или GitHub.