Хотите узнать больше о линейной регрессии? Как найти линию регрессии? Какие статистические концепции лежат в основе этого? Вы попали в нужное место!

В этой статье я намерен представить статистические концепции, лежащие в основе линейной регрессии. Как только вы это сделаете правильно, применить линейную регрессию в машинном обучении станет намного проще.

Линейная регрессия - одна из первых моделей, с которыми столкнется любой соискатель ML. Это очень просто и часто используется.

Начнем с нескольких примеров.

  1. Чем больше компания рекламирует свою продукцию, тем выше прибыль.
  2. По мере увеличения площади дома растет и его цена.
  3. Чем больше вы едите мусора, тем больше увеличивается ваш вес.

Регрессионный анализ

  • часть статистики, которая исследует взаимосвязь между двумя или более переменными, связанными недетерминированным образом. (а что недетерминировано?)

  • Детерминированный: рассмотрите возможность аренды фургона на день и предположим, что стоимость аренды составляет 25 долларов плюс 0,30 доллара за милю. Если x = нет. пройденных миль, а y - общая стоимость, тогда y = 25 + 0,3x. Это детерминировано. Если что-то детерминировано, это означает, что у вас есть необходимая информация, чтобы предсказать результат со 100% уверенностью. Вы можете быть на 100% уверены, что значение y, полученное с помощью приведенного выше уравнения, является правильным.
  • Недетерминированный. Рассмотрим второй пример. Человек A и человек B могут потреблять одинаковое количество шоколада, но их вес может различаться. Мы можем найти какое-нибудь уравнение, подобное приведенному выше, для предсказания y, но мы не можем быть на 100% уверены, что наше предсказанное значение верное. Могут быть различные другие факторы, влияющие на значение y. Значение y не может быть определено только на основе знания x, но есть тенденция, что те, кто ест больше барахла, весят больше.

Линейная регрессия

Линейная регрессия (LR) - это поиск взаимосвязи между этими переменными, то есть суммой, инвестированной в рекламу, по сравнению с суммой, инвестированной в рекламу. Прибыль, площадь по сравнению с Цена, количество потребляемого мусора в неделю по сравнению с Масса.

Независимые переменные называются объясняющими / предикторами или независимыми переменными. Например: Площадь дома, Сумма, потраченная на рекламу, потребление мусора. Переменные, которые зависят от других переменных, являются ответной / зависимой переменной. Например: цена дома (зависит от площади), полученная прибыль (зависит от рекламы), вес (зависит от потребления мусора).

Для начала собираем данные. Скажем, мы собираем площадь (x) и цену (y) многих домов. Это наши наблюдения. Затем мы строим (диаграмму рассеяния) данные, чтобы проверить, существует ли какая-либо связь между переменными. Диаграмма рассеяния дает предварительное представление о характере любых отношений.

Модель простой регрессии

  • Для детерминированной модели (где мы можем предсказать значение y со 100% уверенностью) фактическое наблюдаемое значение y является линейной функцией от x, т. Е.

y = β₀ + β₁ x — — (1)

  • Но для недетерминированных случаев мы не можем быть уверены, что прогнозируемое значение является фактическим. Следовательно, к уравнению добавляется величина ε.

y = β₀ + β₁ x + ε — — (2)

Величина ε в уравнении модели является случайной величиной, предположительно имеющей нормальное распределение со средним значением (ε) = 0 и Var (ε) = σ². Не знаете, что такое ε? Давайте визуализируем это.

(Линия истинной регрессии - это линия, которая лучше всего соответствует точкам данных. Мы будем использовать ее для прогнозирования.)

Поскольку наш случай не детерминирован, мы должны подобрать линию, чтобы предсказать значения y. Предположим, мы каким-то образом подогнали указанную выше линию. Когда нам дают какое-то значение x, скажем x₁, и просят предсказать значение y, мы подставляем x₁ в (1), чтобы получить y₁ ’. Первая красная точка обозначает прогнозируемое значение y ’. Точка: (x, y).

Но фактическое значение может отличаться от прогнозируемого. Для x₁ фактическое значение y₁. Обозначается синей точкой (x₁, y₁). Есть разница между фактическим и прогнозируемым значением !! Эта разница определяется как ε ₁, случайная ошибка. (Это зависит от каждой точки данных). И эта случайная ошибка следует нормальному распределению!

Таким образом, включение члена случайной ошибки 'ε' позволяет (x, y) оказаться либо выше линии истинной регрессии (когда ε ›0), либо ниже линии ( когда ε ‹0).

σ² - это дисперсия (разброс) этой случайной ошибки, ε.

  • Когда σ² мало, фактическая точка данных (x, y) почти всегда будет находиться довольно близко к истинной линии регрессии.
  • Когда σ² велико, фактическая точка данных (x, y) будет значительно отклоняться от истинной линии регрессии.

На рисунке ниже фактические точки данных лежат рядом с линией в (a), потому что разброс случайной ошибки (σ²) невелик. Но в (b) точки смещены от линии, поскольку σ² больше.

Оценка параметров модели

Посмотрите на приведенный выше график рассеяния. Есть две строчки. Строка 1 имеет параметры b ₀, b , а Строка 2 имеет параметры a ₀, a₁. Похоже, что значение y можно предсказать по x, найдя строку, которая достаточно близко к точкам на графике. Какую линию вы бы выбрали для размещения точек данных? Строка 1 или 2?

Надеюсь, вы ответили на Строку 1. Когда мы используем Строку 1, разница между прогнозируемым и фактическим значением мала по сравнению с Строкой 2.

Но как нам найти эту линию? Представлять себе! Вы можете нарисовать столько линий, чтобы соответствовать точкам данных, и как нам найти лучшую линию среди них?

Обычно параметры лучшей линии неизвестны. Итак, если мы найдем параметры этой линии, мы получили лучшую линию!

Немецкий математик Гаусс использовал принцип наименьших квадратов для решения этой проблемы.

Согласно этому принципу линия обеспечивает хорошее соответствие данным, если вертикальные расстояния (отклонения) от наблюдаемых точек до линии малы.

Отклонения представляют собой вертикальные линии от точек до линии регрессии. Тогда наиболее подходящей линией считается линия с наименьшей возможной суммой квадратов отклонений. То есть выберите строку с минимальным значением f.

Значение f определяется параметрами b ₀, b ₁. Выберите параметры, которые имеют минимальное значение f, и это делается путем взятия частной производной от f по параметрам и приравнивания их к нулю (чтобы получить точку минимума, наклон равен 0). И решите их! (Если вы хотите узнать, что здесь происходит, прочтите следующий раздел. В противном случае перейдите к пункту «Почему мы должны компенсировать отклонения? Почему бы просто не добавить их?»)

Щепотка исчисления

На приведенном выше графике предположим, что параметр, скажем, b линии регрессии, нанесен на график относительно значения f, т.е. если параметр b1 = -10, значение f = 80. Как упоминалось ранее, нам нужно выбрать такие параметры, чтобы значение f было минимальным. В точке минимума функции наклон = 0. Наклон - это в основном производная функции. Итак, мы продифференцировали функцию f по параметрам, чтобы получить наклоны, и приравняли к 0.

Почему мы должны возводить отклонения в квадрат? Почему бы просто не добавить их? Отклонения могут быть положительными (над линией) / отрицательными (под линией) / нулевыми (на линии). Если сумма положительных отклонений равна сумме отрицательных отклонений, общая сумма (отклонений) будет равна нулю, что означает, что линия идеально соответствует точкам данных. Чтобы этого избежать, мы возводим отклонения в квадрат. Это не позволит общей сумме равняться 0, если линия полностью не соответствует всем точкам данных и не подразумевает, что точки разбросаны по линии.

ПРИМЕЧАНИЕ.

  • Опасность экстраполяции заключается в том, что подобранное соотношение (здесь линия) может быть недействительным для значений x, значительно выходящих за пределы диапазона данных, т.е. если значения x находятся в диапазоне от 10 до 500 в наборе данных, тогда предсказанное значение y при x = 10 000 может быть недействительным.

Использованная литература :

Вероятность и статистика для инженерии и науки Джей Л. Девор

Я сослался на вышеупомянутую книгу для этой статьи. Я обнаружил, что концепции объясняются просто, с большим количеством примеров и рисунков для лучшего понимания. Я настоятельно рекомендую его, если вы хотите узнать что-нибудь, связанное со статистикой.

Надеюсь, вы познакомились с некоторыми новыми терминами, предварительными концепциями LR и пониманием того, как находится линия линейной регрессии. Если вы нашли эту статью полезной, оставьте свою поддержку в виде аплодисментов. А если возникнут сомнения, смело задавайте их в комментариях. Спасибо!