Мы пытаемся найти наиболее подходящую линию/плоскость, которая представляет отношения между i/p и o/p. Эта лучшая плоскость строится путем изучения параметров функции, которая отображает i/p в o/p.
E(y)= B0 + B1*X
Следовательно, если мы найдем параметры B0 и B1, мы можем предсказать наш результат. Таким образом, машинное обучение в основном пытается угадать эти параметры, которые минимизируют функцию стоимости.
функция стоимости: среднеквадратическая ошибка
Почему мы их квадратируем? Он штрафует значения, которые были дальше от фактического значения.
Цель: найти линейную модель, минимизирующую MSE.
Предположения: существует линейная зависимость между переменными i/p и o/p.
Коэффициент корреляции: Насколько сильно две вещи коррелируют.
Таким образом, для линейной модели высокая корреляция между зависимой и независимой переменной означает, что они сильно линейно коррелированы.
Как понять уравнение:
при каждом увеличении x на 1 шаг мы ожидаем, что y увеличится на B1
Мультиколлинеарность. Когда имеется много независимых переменных, эти переменные могут быть связаны друг с другом, это называется мультиколлинеарностью.
Нулевая гипотеза (H0): текущее принятое значение параметра.
Нулевая гипотеза для регрессии: нет никакой связи между x и y.
Статистика регрессии:
- r: коэффициент, описывающий взаимосвязь между каждой независимой переменной и зависимой переменной.
коэффициент корреляции, заданный коэффициентом Пирсона:
or
2.r²: коэффициент определения
представляет собой процент данных, наиболее близких к линии наилучшего соответствия. Например, если r = 0,922, тогда r² = 0,850, что означает, что 85 % общего изменения y можно объяснить линейная зависимость между x и y (как описано уравнением регрессии). Остальные 15 % от общей вариации y остаются необъяснимыми.
3. p-значение: мы используем p-значение, чтобы увидеть, какие термины являются значимыми и должны быть сохранены в модели. если он меньше 0,05, то вы можете отклонить нулевую гипотезу.
4. стандартная ошибка: насколько далеко точки от прогнозируемой линии.
5. t-stat: коэффициент/стандартная ошибка
6. Уверенность. Насколько мы уверены в своем решении. Если вы уверены более чем на 95%, это считается хорошим.
Значение: 1- уверенность. Так что значимость‹5% — это хорошо.
Перекрестная проверка: помогает оценивать модели машинного обучения, выбирая лучшую модель с минимальной ошибкой. Некоторую часть обучающих данных мы сохраняем в качестве тестовых данных, по которым рассчитывается ошибка каждой модели. Затем лучшая модель проходит через фактические данные тестирования, чтобы определить точность тестирования. Это также гарантирует, что модель не будет переобуваться.
Типы:
а) Удержаться: склонен к систематической ошибке выборки
б) k-fold: данные обучения разделены на k наборов, модель обучения на k-1 наборах и 1 набор в качестве проверочного набора. Возьмите среднее значение всех ошибок. Предвзятости выбора не будет.
c) исключить одно CV: особый случай k-кратной проверки, когда k = нет нечетных точек данных. 1 точка данных берется в качестве контрольной выборки в каждом из n циклов. затем возьмите среднее значение этой ошибки. Минус в том, что это займет много времени.
г) бутстрап: случайным образом взять N выборок из обучающей выборки с заменой и обучить модель на этом наборе, проверяя ее на оставшихся точках данных. Среднее значение по каждой ошибке набора тестов.