Машинное обучение: часть 1. Линейная регрессия и миф

Давайте подойдем к самой основной вещи машинного обучения, которая представляет собой не что иное, как линейную регрессию. Линейная регрессия была первым типом регрессионного анализа, который был тщательно изучен. Проще говоря, линейные средние (расположенные вдоль прямой линии в последовательном порядке) и значение регрессии (мера отношения между средним/медианным значением одной переменной (например, выход ) и соответствующие значения других переменных (например, время и стоимость). Таким образом, по отношению к времени стоимость увеличивается/уменьшается, поскольку они прямо пропорциональны.

В факте статистического обучения в данных есть два типа переменных:

  1. Независимые переменные: данные, которыми можно управлять напрямую.
  2. Зависимые переменные: данные, которыми нельзя управлять напрямую.

Представление модели

Давайте вспомним урок геометрии из средней школы. Что такое уравнение прямой?

y = mx + c

y — это зависимая переменная, т. е. переменная, которую необходимо оценить и спрогнозировать.

x — это независимая переменная, т. е. управляемая переменная, которая является входом.

m — уклон. Он определяет, каким будет угол линии. Это параметр, обозначаемый как β.

c — это перехват. Константа, определяющая значение y, когда x равно 0.

Линейная регрессия — это не что иное, как линия, которая лучше всего соответствует заданным данным с минимальной ошибкой.

Основным принципом линейной регрессии является адаптация значений наклона к значениям переменных, а затем формирование линии, которая наилучшим образом предсказывает Y из X.

Y=β0+β1X

На этом рисунке корреляция, отображаемая прямой линией, основана на предположении о двух переменных, X и Y.

Наши прогнозируемые значения должны быть ближе к нашим фактическим результатам, потому что нет смысла прогнозировать значения, которые далеки от реальных значений. Чтобы найти эти значения коэффициентов, мы можем использовать OLS (Обычный метод наименьших квадратов). и протестируйте, чтобы минимизировать ошибку нашей модели.

Одномерная линейная регрессия

Он определяет линейную зависимость между зависимой переменной Y и одной независимой переменной X. Давайте рассмотрим его более практично для облегчения понимания. Если мы хотим купить дом, мы сначала смотрим на цену дома по сравнению с площадью участка.

Многомерная линейная регрессия

Во многих случаях одной независимой переменной X недостаточно, чтобы объяснить зависимую переменную Y. Например, для более точного расчета цены на жилье мы не можем определить ее только с помощью квадратных футов.

Чтобы пойти дальше, мы можем оценить цену продажи дома, используя множество переменных-предикторов. Взгляните на дату цены на жилье, которая состоит из многих переменных (цена продажи, размер участка в квадратных футах, соседство, количество спален, населенный пункт, год постройки и т. д.).

Y = x0+x1+x2+..xn

Здесь x1,x2- независимые переменные. x0 — константа. Чтобы получить более четкое представление о том, что влияет на цены на жилье, мы добавляем и тестируем различные переменные и анализируем результаты регрессии, чтобы увидеть, какие комбинации переменных-предикторов удовлетворяют предположениям МНК.

Спасибо за чтение! Я ценю тебя :)

Назад к большему обучению!!!!!