Все, что вам нужно знать об алгебре линейной регрессии, чтобы быть готовым к собеседованию

Вся алгебра, которую вам нужно знать о линейной регрессии, чтобы быть готовым к собеседованию

Линейная регрессия (LR) - один из самых простых и важных алгоритмов в науке о данных. Собираетесь ли вы на собеседование для работы в области науки о данных, анализа данных, машинного обучения или количественных исследований, вам может потребоваться ответить на конкретные вопросы по алгебре о LR. Вот все, что вам нужно знать, чтобы быть уверенным в своих знаниях LR.

Примечание: эта статья посвящена теории, а не программированию. Также предполагается, что вы уже хотя бы немного знакомы с алгеброй.

Знайте свои предположения

Хотя в этой статье предполагается, что вы уже в какой-то мере знакомы с LR, давайте напомним формулу и предположения. Учитывая N наблюдений, выходной вектор Y (размерность Nx1) и p входов X1, X2,…, Xp (каждый входной вектор имеет размерность Nx1), LR предполагает, что функция регрессии E (Y | X) линейна по входы. Y, таким образом, утверждает:

где epsilon - это ошибка. Линейное предположение на самом деле является единственным предположением, строго необходимым для LR. Позже в этой статье мы увидим, что можем добавить больше предположений, чтобы вывести больше результатов.

Хотя приведенная выше формула может показаться простой, не всегда легко найти коэффициенты (бета) - в дальнейшем мы будем называть ее бета нашими оценками коэффициентов.

Знайте определения ключевых показателей

Вот 3 показателя, которые вам обязательно нужно знать (наизусть):

RSS - это остаточная сумма квадратов.

где y_i - результат наблюдения i, а ŷ_i - оценочный результат наблюдения i :

TSS - это общая сумма квадратов.

куда

R-квадрат, который является мерой линейной зависимости между X и Y

Если вы знаете эти формулы, вы сможете вывести все остальные результаты с помощью логических рассуждений.

Знайте решение: как (и когда) его вычислить

Как мы уже говорили, ключ к LR - это нахождение оценок коэффициентов. Мы находим их, минимизируя RSS. Для этого определим X и Y как

Обратите внимание, что мы должны добавить столбец единиц во входную матрицу, чтобы учесть перехват beta_0. Наша задача минимизации эквивалентна решению:

Итак, мы можем вычислить градиент правильного члена:

Что должно быть равно 0 для нашей оценки бета-шляпы.

Предполагая, что X ⊤ X не единственное число, это дает нам явное решение :

Это формула, которую вам необходимо знать, но вы также должны суметь ее доказать, как это было сделано выше. Предположение о неособенности здесь является ключевым. Мы также выводим формулу оценки y:

Также может быть полезно знать явное решение в измерении Nx1 (1 входная переменная):

Где x здесь вектор (а не матрица) - это легко запомнить, когда у вас уже есть более общее решение: X⊤X становится дисперсией входных данных (в одномерном измерении, инвертируя член эквивалентно делению на этот член), а X⊤y становится ковариационным членом. Вы также можете вычислить это решение, выполнив аналогичное вычисление в размерности 1.

Удобно проверять гипотезы (предполагая нормальные ошибки)

Во время интервью также важно иметь некоторые статистические представления о LR.

В этом разделе предполагается, что у вас есть основы статистических тестов (включая t-статистика, f-статистика и проверка гипотез).

Предполагая нормальные ошибки, т.е.

(давайте не будем забывать, что эпсилон здесь вектор!), тогда наше оценочное решение удовлетворяет:

и поэтому

что подводит нас к

Этот вывод помогает оценить нулевую гипотезу о том, что коэффициент beta_j равен нулю: мы можем вычислить t-оценку.

При нулевой гипотезе t_j следует t-распределению с N-p-1 степенями свободы, а для N достаточно больших следует нормальному распределению.

Вычисление этой оценки может помочь вам оценить нулевую гипотезу. Например, поиск | t_j | оценка выше 1,96 гарантирует значимость на уровне 5% того, что коэффициент beta_j не равен нулю.

Вы также можете вычислить доверительные интервалы для заданного коэффициента: приблизительный (1-2 * альфа) доверительный интервал определяется как

где мы используем площади под стандартной нормальной кривой для вычисления:

Мы также можем проверить гипотезу о том, что каждый коэффициент равен нулю, вычислив F-stat

который при нулевой гипотезе следует распределению F (p, N-p-1). Следовательно, большие значения F представляют собой свидетельство против нулевой гипотезы.

Бонус 1: почему мы применяем метод наименьших квадратов?

Когда мы искали оптимальную оценку беты, мы инстинктивно перешли к оптимизации наименьших квадратов, но почему? Во-первых, мы можем доказать (мы не будем здесь, ознакомьтесь с подробностями в этой статье), что оценка методом наименьших квадратов беспристрастна, т. Е.

Затем существует теорема, которая доказывает, что оценка методом наименьших квадратов имеет наименьшую дисперсию. Это теорема Гаусса-Маркова: она показывает, что лучшая несмещенная оценка - это наименьшие квадраты.

Бонус 2: что делать, если X⊤X не получил полного рейтинга?

Во-первых, давайте посмотрим, когда это произойдет. Напомним, что X имеет размерность (N, p + 1). Тогда X⊤X равно (p + 1, p + 1). Мы можем показать, что X⊤X полностью ранжирован тогда и только тогда, когда X имеет ранг p + 1, что вынуждает N ›p. Вы можете увидеть доказательство здесь. Это означает, что функции линейно независимы (но не обязательно некоррелированы).

Когда это не так (когда у нас больше функций, чем наблюдений), мы можем использовать методы сжатия, такие как регрессия гребня. Действительно, когда мы добавляем член к диагонали X⊤X, проблема становится разрешимой. Для примера регрессии гребня:

есть решение:

действительно, поскольку X⊤X, является положительно полуопределенным, все его собственные значения положительны, добавление положительного члена к диагонали делает его полностью ранжированным. Это делает проблему неособой. Это одна из причин, по которой мы должны применять методы регуляризации в случаях, когда p ›› N.