Вся алгебра, которую вам нужно знать о линейной регрессии, чтобы быть готовым к собеседованию
Линейная регрессия (LR) - один из самых простых и важных алгоритмов в науке о данных. Собираетесь ли вы на собеседование для работы в области науки о данных, анализа данных, машинного обучения или количественных исследований, вам может потребоваться ответить на конкретные вопросы по алгебре о LR. Вот все, что вам нужно знать, чтобы быть уверенным в своих знаниях LR.
Примечание: эта статья посвящена теории, а не программированию. Также предполагается, что вы уже хотя бы немного знакомы с алгеброй.
Знайте свои предположения
Хотя в этой статье предполагается, что вы уже в какой-то мере знакомы с LR, давайте напомним формулу и предположения. Учитывая N наблюдений, выходной вектор Y (размерность Nx1) и p входов X1, X2,…, Xp (каждый входной вектор имеет размерность Nx1), LR предполагает, что функция регрессии E (Y | X) линейна по входы. Y, таким образом, утверждает:
где epsilon - это ошибка. Линейное предположение на самом деле является единственным предположением, строго необходимым для LR. Позже в этой статье мы увидим, что можем добавить больше предположений, чтобы вывести больше результатов.
Хотя приведенная выше формула может показаться простой, не всегда легко найти коэффициенты (бета) - в дальнейшем мы будем называть ее бета нашими оценками коэффициентов.
Знайте определения ключевых показателей
Вот 3 показателя, которые вам обязательно нужно знать (наизусть):
- RSS - это остаточная сумма квадратов.
где y_i - результат наблюдения i, а ŷ_i - оценочный результат наблюдения i :
- TSS - это общая сумма квадратов.
куда
- R-квадрат, который является мерой линейной зависимости между X и Y
Если вы знаете эти формулы, вы сможете вывести все остальные результаты с помощью логических рассуждений.
Знайте решение: как (и когда) его вычислить
Как мы уже говорили, ключ к LR - это нахождение оценок коэффициентов. Мы находим их, минимизируя RSS. Для этого определим X и Y как
Обратите внимание, что мы должны добавить столбец единиц во входную матрицу, чтобы учесть перехват beta_0. Наша задача минимизации эквивалентна решению:
Итак, мы можем вычислить градиент правильного члена:
Что должно быть равно 0 для нашей оценки бета-шляпы.
Предполагая, что X ⊤ X не единственное число, это дает нам явное решение :
Это формула, которую вам необходимо знать, но вы также должны суметь ее доказать, как это было сделано выше. Предположение о неособенности здесь является ключевым. Мы также выводим формулу оценки y:
Также может быть полезно знать явное решение в измерении Nx1 (1 входная переменная):
Где x здесь вектор (а не матрица) - это легко запомнить, когда у вас уже есть более общее решение: X⊤X становится дисперсией входных данных (в одномерном измерении, инвертируя член эквивалентно делению на этот член), а X⊤y становится ковариационным членом. Вы также можете вычислить это решение, выполнив аналогичное вычисление в размерности 1.
Удобно проверять гипотезы (предполагая нормальные ошибки)
Во время интервью также важно иметь некоторые статистические представления о LR.
В этом разделе предполагается, что у вас есть основы статистических тестов (включая t-статистика, f-статистика и проверка гипотез).
Предполагая нормальные ошибки, т.е.
(давайте не будем забывать, что эпсилон здесь вектор!), тогда наше оценочное решение удовлетворяет:
и поэтому
что подводит нас к
Этот вывод помогает оценить нулевую гипотезу о том, что коэффициент beta_j равен нулю: мы можем вычислить t-оценку.
При нулевой гипотезе t_j следует t-распределению с N-p-1 степенями свободы, а для N достаточно больших следует нормальному распределению.
Вычисление этой оценки может помочь вам оценить нулевую гипотезу. Например, поиск | t_j | оценка выше 1,96 гарантирует значимость на уровне 5% того, что коэффициент beta_j не равен нулю.
Вы также можете вычислить доверительные интервалы для заданного коэффициента: приблизительный (1-2 * альфа) доверительный интервал определяется как
где мы используем площади под стандартной нормальной кривой для вычисления:
Мы также можем проверить гипотезу о том, что каждый коэффициент равен нулю, вычислив F-stat
который при нулевой гипотезе следует распределению F (p, N-p-1). Следовательно, большие значения F представляют собой свидетельство против нулевой гипотезы.
Бонус 1: почему мы применяем метод наименьших квадратов?
Когда мы искали оптимальную оценку беты, мы инстинктивно перешли к оптимизации наименьших квадратов, но почему? Во-первых, мы можем доказать (мы не будем здесь, ознакомьтесь с подробностями в этой статье), что оценка методом наименьших квадратов беспристрастна, т. Е.
Затем существует теорема, которая доказывает, что оценка методом наименьших квадратов имеет наименьшую дисперсию. Это теорема Гаусса-Маркова: она показывает, что лучшая несмещенная оценка - это наименьшие квадраты.
Бонус 2: что делать, если X⊤X не получил полного рейтинга?
Во-первых, давайте посмотрим, когда это произойдет. Напомним, что X имеет размерность (N, p + 1). Тогда X⊤X равно (p + 1, p + 1). Мы можем показать, что X⊤X полностью ранжирован тогда и только тогда, когда X имеет ранг p + 1, что вынуждает N ›p. Вы можете увидеть доказательство здесь. Это означает, что функции линейно независимы (но не обязательно некоррелированы).
Когда это не так (когда у нас больше функций, чем наблюдений), мы можем использовать методы сжатия, такие как регрессия гребня. Действительно, когда мы добавляем член к диагонали X⊤X, проблема становится разрешимой. Для примера регрессии гребня:
есть решение:
действительно, поскольку X⊤X, является положительно полуопределенным, все его собственные значения положительны, добавление положительного члена к диагонали делает его полностью ранжированным. Это делает проблему неособой. Это одна из причин, по которой мы должны применять методы регуляризации в случаях, когда p ›› N.