Мы пытаемся найти наиболее подходящую линию/плоскость, которая представляет отношения между i/p и o/p. Эта лучшая плоскость строится путем изучения параметров функции, которая отображает i/p в o/p.

E(y)= B0 + B1*X

Следовательно, если мы найдем параметры B0 и B1, мы можем предсказать наш результат. Таким образом, машинное обучение в основном пытается угадать эти параметры, которые минимизируют функцию стоимости.

функция стоимости: среднеквадратическая ошибка

Почему мы их квадратируем? Он штрафует значения, которые были дальше от фактического значения.

Цель: найти линейную модель, минимизирующую MSE.

Предположения: существует линейная зависимость между переменными i/p и o/p.

Коэффициент корреляции: Насколько сильно две вещи коррелируют.

Таким образом, для линейной модели высокая корреляция между зависимой и независимой переменной означает, что они сильно линейно коррелированы.

Как понять уравнение:

при каждом увеличении x на 1 шаг мы ожидаем, что y увеличится на B1

Мультиколлинеарность. Когда имеется много независимых переменных, эти переменные могут быть связаны друг с другом, это называется мультиколлинеарностью.

Нулевая гипотеза (H0): текущее принятое значение параметра.

Нулевая гипотеза для регрессии: нет никакой связи между x и y.

Статистика регрессии:

  1. r: коэффициент, описывающий взаимосвязь между каждой независимой переменной и зависимой переменной.

коэффициент корреляции, заданный коэффициентом Пирсона:

or

2.: коэффициент определения

представляет собой процент данных, наиболее близких к линии наилучшего соответствия. Например, если r = 0,922, тогда = 0,850, что означает, что 85 % общего изменения y можно объяснить линейная зависимость между x и y (как описано уравнением регрессии). Остальные 15 % от общей вариации y остаются необъяснимыми.

3. p-значение: мы используем p-значение, чтобы увидеть, какие термины являются значимыми и должны быть сохранены в модели. если он меньше 0,05, то вы можете отклонить нулевую гипотезу.

4. стандартная ошибка: насколько далеко точки от прогнозируемой линии.

5. t-stat: коэффициент/стандартная ошибка

6. Уверенность. Насколько мы уверены в своем решении. Если вы уверены более чем на 95%, это считается хорошим.

Значение: 1- уверенность. Так что значимость‹5% — это хорошо.

Перекрестная проверка: помогает оценивать модели машинного обучения, выбирая лучшую модель с минимальной ошибкой. Некоторую часть обучающих данных мы сохраняем в качестве тестовых данных, по которым рассчитывается ошибка каждой модели. Затем лучшая модель проходит через фактические данные тестирования, чтобы определить точность тестирования. Это также гарантирует, что модель не будет переобуваться.

Типы:

а) Удержаться: склонен к систематической ошибке выборки

б) k-fold: данные обучения разделены на k наборов, модель обучения на k-1 наборах и 1 набор в качестве проверочного набора. Возьмите среднее значение всех ошибок. Предвзятости выбора не будет.

c) исключить одно CV: особый случай k-кратной проверки, когда k = нет нечетных точек данных. 1 точка данных берется в качестве контрольной выборки в каждом из n циклов. затем возьмите среднее значение этой ошибки. Минус в том, что это займет много времени.

г) бутстрап: случайным образом взять N выборок из обучающей выборки с заменой и обучить модель на этом наборе, проверяя ее на оставшихся точках данных. Среднее значение по каждой ошибке набора тестов.