Линейная регрессия - это старейший государственный деятель моделей машинного обучения. Он даже старше самих машин: Лежандр и Гаусс разработали его в 1805 и 1809 годах соответственно.

Для специалистов по данным очень ценно глубокое понимание регрессии. Понимание ванильной регрессии - это ступенька к пониманию ее молодых кузенов-турков, таких как Ridge Regression, Lasso или Elastic Net. А с пониманием приходит полезное чувство, которое можно использовать.

К сожалению, чтобы получить такое понимание, обычно нужно пересечь Долину алгебры, пройти через Матричный лес и отбиться от зверюшек исчисления, скрывающихся внутри (см. Иллюстрацию ниже). Этот процесс отражает коварный аспект истории математики:

Алгебра - это предложение дьявола математику. Дьявол говорит: «Я дам вам эту мощную машину, она ответит на любой ваш вопрос. Все, что вам нужно сделать, это отдать мне свою душу: отказаться от геометрии, и вы получите эту чудесную машину ».

- Майкл Атия (через заметки Math 216 Рави Вакил)

Следуя неявному совету Атьи, мы вместо этого попробуем геометрический подход. Вот план:

  1. Мы собираемся выполнить простую регрессию (0 независимых переменных) сложным способом.
  2. Мы собираемся выполнить сложную регрессию (несколько независимых переменных) простым способом.
  3. Мы будем использовать теорему Пифагора для объяснения разложения / дисперсионного анализа (ANOVA) и, в частности, коэффициента детерминации (R²).

В качестве бонуса мы разработаем очень четкую картину того, что такое степени свободы.

Предполагаемый фон будет:

  • Понимание уравнения регрессии и знакомство со стандартными обозначениями. Особо следует отметить использование шляпок (например, ŷ) для оценок и полосок (например,) для среднего значения списка чисел. Также не стоит бояться стандартных величин вроде μ или 𝜎.
  • Базовое понимание того, что такое векторы и векторные пространства и как их визуализировать.
  • Случайная возможность умножать матрицы.
  • Теорема Пифагора a² + b² = c².

Прежде чем мы перейдем к делу, вот что я примерно думаю о процессе обучения алгебре:

Часть 1: ваш самый первый регресс

Хотите верьте, хотите нет, но вы действительно сделали свой первый регресс в средней школе. Настройка такова: у вас есть список номеров. Затем вы найдете среднее значение и стандартное отклонение выборки.

Фактически это просто регрессия с 0 независимыми переменными. Другими словами, модель

И оценка

Мы хотим превратить это в картинку. Для этого нам нужно обновить наши математические объекты следующим образом.

  1. Y теперь будет вектором в n-мерном пространстве (n - количество наблюдений). Каждая запись в векторе - это наблюдение. Вы также можете думать об этом как о матрице n на 1.
  2. β коэффициент станет матрицей 1х1.
  3. X, матрица плана, превратится в матрицу единиц размером n на 1. Мы также будем думать об этом как о векторе.
  4. ε, нормальная случайная величина со средним значением 0 и дисперсией σ², дающей ошибку, вместо этого станет случайным вектором с каждой записью нормального случайного числа iid. (Более официально случайный вектор должен соответствовать многомерному нормальному распределению). Сегодня нам не нужно беспокоиться о ε.

Модель сложнее не выглядит:

Но теперь вы должны понять, что смотрите на это:

Пожалуйста, уделите минуту умножению матриц и убедитесь, что происходит то же самое, что и раньше, только теперь все происходит одновременно.

Большой! Теперь мы готовы визуализировать, построив графики векторов Y и X.

Примечание: чертежи по своей природе двухмерны, поэтому, прежде чем мы продолжим, вы должны согласиться с тем, что мой рисунок на самом деле происходит в n-мерном векторном пространстве.

Результат приятный: мы можем использовать теорему Пифагора!

  1. Мы разложили (c²) сумму квадратов элементов вектора y на: (a²) сумму квадратов элементов вектора ŷ; и (b²) сумма квадратов элементов вектора e.
  2. Вектор ŷ всегда находится в одномерном подпространстве вектора x (также известном как линия). Итак, мы говорим, что наша оценка ŷ имеет 1 степень свободы.
  3. Остаточный вектор e всегда находится в n-1-мерном (аффинном) подпространстве, перпендикулярном x. Итак, мы говорим, что наша оценка e имеет n-1 степень свободы.
  4. Чтобы вычислить дисперсию Var (y), возьмем квадрат длины e - | e | ² - и разделим на количество степеней свободы. Вы должны убедиться, что это формула, которую вы выучили в средней школе.

Вывод на этом этапе заключается в том, что среднее значение и дисперсия имеют геометрическую интерпретацию.

Кроме того, довольно часто задают вопрос, почему мы хотим минимизировать сумму квадратов остатков, а не сумму их абсолютных значений. Один из ответов - это просто теорема Пифагора: складываются квадраты, а не абсолютные значения.

Часть 2: Множественная регрессия

Хорошо, мы готовы добавить в нашу модель больше независимых переменных. У нас будет p независимых переменных и n наблюдений. Наша модель останется прежним уравнением:

Но теперь X - это матрица размером n на p, а β - это матрица p на 1, также известная как вектор. Уравнение превращается во что-то пугающее:

Каждый столбец в матрице X представляет собой переменную. Каждая строка в матрице X представляет наблюдение.

Обратите внимание, что мы обрабатываем член константы / точки пересечения как одну из переменных p. Снова, пожалуйста, произведите умножение матриц, чтобы убедиться, что оно дает ожидаемые результаты.

Интерлюдия: линейная алгебра без алгебры

Едва ли существует теория более элементарная, чем линейная алгебра, несмотря на то, что поколения профессоров и авторов учебников заслоняли ее простоту нелепыми вычислениями с матрицами.

- Жан Дьедонне

Выполнение линейной алгебры без алгебры - это сердце и душа «геометрии». Мы хотим иметь картину происходящего, не беспокоясь о деталях ее расчета.

Геометрия состоит из следующего построения нашей линейной алгебры. Обратите внимание, что я избегал формулировать какие-либо технические требования и вместо этого решил выразить их концептуально. Ниже представлена ​​диаграмма.

  1. Существуют векторные пространства, которые представляют собой совокупность множества векторов. (предполагается, что вы уже знаете об этом).
  2. Есть карты между векторными пространствами. Считается, что карта имеет источник и цель. Карта - это просто функция: она принимает в качестве входных данных вектор в источнике и имеет в качестве выходных вектор в целевом объекте.
  3. Мы можем взять каждый вектор в источнике, применить карту и построить график результата в целевом пространстве. Это называется изображением карты.
  4. Изображение сохраняет структуру источника: добавление двух векторов в источнике и последующее сопоставление суммы аналогично первому сопоставлению с последующим сложением. Это то, что дает нам линейную карту.
    Другой способ взглянуть на это: изображение представляет собой (гипер) плоскость, которая проходит через начало координат и не может быть извилистой.
  5. Как правило, изображение не обязательно должно занимать все целевое пространство. Кроме того, некоторые из исходных векторов могут быть сопоставлены с 0. Техническая формулировка для этого последнего сценария такова: «карта убивает (исходный) вектор». (В самом деле).

Почему это называется линейной алгеброй?

  • Линейный. Мы разрешаем существовать только линейным картам. Это ставит линейное в линейную алгебру.
  • Алгебра. При правильной настройке исходного и целевого пространств каждая линейная карта представлена ​​уникальной матрицей. И наоборот, каждая матрица представляет собой уникальную линейную карту. (Все наши векторные пространства настроены правильно, не беспокойтесь об этом).

Например, если бы мы разрешили аффинные карты (их изображения не должны проходить через начало координат), мы получили бы то, что (я полагаю, вы могли бы назвать) аффинной алгеброй.

Матрица дизайна представляет собой линейную карту

По моему опыту, доказательства с использованием матриц можно сократить на 50%, если выбросить матрицы.

- Эмиль Артин

Превратив X в матрицу, мы хотим забыть о матрице. Вместо этого это линейная карта. Итак, мы можем понять уравнение Y = Xβ + ε следующим образом.

  • Существует векторное пространство всех возможных β-векторов. Мы будем называть это пространство параметров.
  • Существует векторное пространство всех возможных Y-векторов. Мы назовем это пробелом.
  • X представляет собой линейную карту, источником которой является пространство параметров, а целью - пространство выборки.
  • ε - случайный вектор в пространстве отсчетов. Сегодня мы не будем беспокоиться о ε.

Последняя часть - это немного понять, что делает линейная карта, представленная X. В частности, мы хотим знать, как выглядит его изображение. Вот сделка:

  • Каждый столбец матрицы X представляет собой переменную. Например, предположим, что вы уменьшаете вес в зависимости от роста и возраста. (в пакете statsmodels R или python: «вес ~ рост + возраст»). Тогда у X есть три столбца. Первый - все единицы. Второй - измерение роста всех n человек в вашем кабинете. Третий столбец - это измерение возраста всех n человек в вашем исследовании.

  • Мы можем думать о каждом из этих столбцов как о векторах в пробном пространстве. Тогда образ X - это все возможные линейные комбинации векторов-столбцов. Это называется промежутком этих векторов.

Каков диапазон векторов? Ниже есть диаграмма, но ее довольно сложно нарисовать. Поэтому, пожалуйста, найдите время, чтобы правильно это визуализировать.

  • Основная идея обычно заключается в следующем: один вектор охватывает линию, два вектора - плоскость, три вектора - трехмерное пространство / гиперплоскость и т. Д. И т. Д.
  • Первое исключение: во-первых, два вектора могут указывать в одном направлении. Например, если один из ваших векторов был «высотой в футах», а другой - «высотой в дюймах», тогда один вектор является просто постоянным кратным другому. Эти два вектора вместе составляют линию. С таким же успехом вы можете просто взять одну из них. В контексте регрессии это называется «идеальной коллинеарностью». Одно из предположений регрессии состоит в том, что этого не происходит. Так что нам не о чем беспокоиться.
  • Второе исключение - когда один из векторов лежит в плоскости, натянутой на два других вектора. Точно так же, если он лежит на гиперплане, охватываемом 3 или более векторами и т. Д. Тогда последний вектор не добавляется к диапазону. В нашем контексте это называется «совершенная мультиколлинеарность». Опять же, мы предполагаем, что этого не происходит, и обсудим это позже.

Геометрия - это искусство приводить верные аргументы из неправильно нарисованных фигур.

- Георгий Поля

Если этой визуализации недостаточно, рассмотрите это видео 3Blue1Brown. Актуальный для нас раздел начинается в 6:10.

Регрессия - это проекция

Теперь мы можем сразу понять, как работает наша регрессия. Вы можете переключаться между этим текстом и диаграммой ниже.

  1. Все возможности для параметров β отображаются X в пространство выборки.
  2. Изображение представляет собой (гипер) плоскость в пространстве образца. Каждая точка на нем соответствует выбору коэффициентов β. Думая о X как о карте, назовем эту гиперплоскость X (β).
  3. Невязка - это вектор, указывающий от y к ŷ, который является точкой на изображении X (β), соответствующей выбранному нами β.
  4. Мы хотим минимизировать сумму квадратов остатков. Но это просто расстояние от y до ŷ в квадрате (по теореме Пифагора).
  5. Таким образом, мы можем просто минимизировать расстояние от y до ŷ. (Нет необходимости возводить расстояние в квадрат)
  6. Ближайшая точка на (гипер) плоскости X (β) к точке y задается проведением линии, которая (а) проходит через точку y; и (б) перпендикулярно X (β). Это называется проекцией. Результат.

Обратите внимание, что матрицы не умножались, алгебра и уравнения не использовались. Вычисления, безусловно, требуют этого, а концепции - нет.

Цель вычислений - понимание, а не числа.

- Ричард Хэмминг

Часть 3: Дисперсионный анализ

Уравнения, описывающие разложение дисперсии в терминах SST = SSE + SSR, на самом деле являются действительно сложным способом выражения теоремы Пифагора. Напомним, что

  • SST - это «сумма квадратов Всего», также известная как дисперсия y до деления на n-1.
  • SSR - это «регрессия суммы квадратов», также известная как объясненная дисперсия до деления на степени свободы.
  • SSE - это «сумма квадратов ошибок» (или остатков, что сбивает с толку), иначе говоря, необъяснимая дисперсия (до деления на степени свободы).

Теперь обратите внимание, что при обновлении нашей регрессии для работы с векторами «сумма квадратов» просто становится «квадратом длины вектора». (Норма L2).

На диаграмме ниже показан анализ / разложение дисперсии. Слева находится изображение в пространстве выборки трех интересующих векторов: y, ŷ и ȳ. Показанный справа прямоугольный треугольник вытащен для дальнейшего изучения. Показаны длины катетов и гипотенузы.

  • Помните, что для вычисления выборочной дисперсии y мы сначала взяли квадрат длины вектора, указывающего от y до. Это SST. Затем мы разделили на количество степеней свободы n-1. Опять же, это потому, что вектор «от y к» живет в n – 1 мерном пространстве. Потому что он должен быть перпендикулярен постоянному вектору (1,1,…, 1)
  • Вектор от ŷ до ȳ имеет квадрат длины SSR («регрессия в квадрате суммы»). Обратите внимание, что среднее для записей такое же, как и для записей y, поэтому это первый шаг в вычислении «выборочной дисперсии подобранных значений». Второй шаг - разделить по степеням свободы. Помните, что ŷ живет в p-мерной (гипер) плоскости, которая является образом X (β). Но вектор «от ŷ до ȳ» должен быть перпендикулярен вектору y (вектор y означает вектор от начала координат до y). Таким образом, у нас действительно есть только p – 1 степеней свободы.
  • Наконец, вектор от y до ŷ, который является остаточным вектором e, имеет n – p степеней свободы, потому что он должен быть перпендикулярен p-мерной (гипер) плоскости.

Два наблюдения по порядку:

Во-первых, мотивация для степеней свободы. Если у вас есть вектор a = (1,1,…, 1) с n элементами, то квадрат его длины равен | a | ² = n. Каким-то образом вы чувствуете, что этот вектор на самом деле всего лишь 1, транслируемый по n-мерному вектору. Итак, вы хотите разделить на n, чтобы учесть тот факт, что его длина увеличивается исключительно из-за количества измерений. (Это отличный переход к проклятию размерности)

Во-вторых, вы видите, что существует дополнительный уровень сложности из-за того, что мы хотим специально обработать постоянный вектор (1,1,…, 1), поскольку он оценивает среднее значение μ для y. Мы не хотим включать это в наш расчет SST или SSR.

Решение этой второй проблемы состоит в том, чтобы убедиться, что все наши X-векторы (столбцы матрицы) равны нулю. Это сделает их все перпендикулярными вектору (1,1,…, 1). Точно так же, если мы сделаем для нашего y среднее значение 0 в начале, мы убедимся, что SST равно | y | ².

С геометрической точки зрения мы взяли предыдущую диаграмму (где ȳ был ненулевым вектором) и спроецировали ее на n-1-мерное подпространство пространства выборки.

Коэффициент детерминации

Напомним, что R² - это просто SSR / SST = 1 – SSE / SST. Надеюсь, что приведенная выше диаграмма дает четкую геометрическую причину для рассмотрения этого вопроса.

Не вдаваясь в подробности, предположения регрессии делают y случайным вектором, который должен быть центрирован на изображении X (β). Поскольку он случайный, он может немного перемещаться. Таким образом, R² говорит нам, насколько (относительно) близок вектор y к нашей плоскости, давая нам представление о том, действительно ли наша регрессия хорошо справляется с вычислением того, где должен быть вектор y.

Наконец, бонус. Предположим, что мы выполняем простую линейную регрессию, а именно с одной независимой переменной, одним вектором-столбцом X. Тогда корреляция между векторами X и Y может быть вычислена с помощью следующего процесса:

  1. Центрируйте каждый из X и Y, вычитая их соответствующие средние. (Таким образом, мы проецируемся на подпространство размерности n-1).
  2. Масштабируйте каждый из них, разделив на соответствующие стандартные отклонения выборки. (Это делает их векторами единичной длины).
  3. Возьмите их скалярное произведение. Это коэффициент корреляции Пирсона r.

Напомним, закон косинусов говорит нам, что для единичных векторов cos θ = x · y, где θ - угол между двумя векторами, а x · y - скалярное произведение.

Наконец, посмотрите на правый треугольник выше и запомните свой SOHCAHTOA. x указывает на ŷ в случае OLS. Это говорит вам, что θ - это просто нижний угол в треугольнике, а cos² θ - это просто SSR / SST. Итак, r² = R²!

Заключение

Выводы

Здесь есть что усвоить. Вот некоторые ключевые моменты, на которых следует сосредоточиться:

  • Среднее значение и дисперсию можно понять геометрически с помощью теоремы Пифагора.
  • Степени свободы объясняют тот факт, что векторы становятся длиннее только из-за того, что они находятся в пространстве более высоких измерений.
  • Мы можем рассматривать наши зависимые и независимые переменные (включая константу) как векторы в пространстве выборки.
  • Мы можем рассматривать матрицу проекта X как линейную карту между пространством параметров и пространством выборки.
  • оценивается путем проецирования y на изображение X (β), а затем мы получаем нашу оценку параметра для β, возвращаясь в пространство параметров, чтобы увидеть, какая точка соответствует ŷ.
  • Алгебра для ANOVA работает благодаря теореме Пифагора.
  • Центрирование наших x и y так, чтобы иметь среднее значение 0 перед регрессией, просто проецирует одно измерение, что мы всегда делали, чтобы делать в любом случае.

О системе образования

«Должен ли ты быть просто алгебраистом или геометром?» это все равно что сказать: «Ты предпочитаешь быть глухим или слепым?»

- Майкл Атья

Я написал это, потому что хотел бы, чтобы кто-нибудь сказал мне об этом раньше. Большая часть математического образования в этой стране носит в основном алгебраический характер и имеет тенденцию скрывать красоту, лежащую в основе математики.

Тем не менее, я не желаю придерживаться позиции, согласно которой система образования должна быть менее алгебраической по двум причинам.

  1. По правде говоря, я пришел к пониманию картины, которую я изложил выше, только работая с алгеброй. Вы можете найти эту статью наиболее полезной просто как руководство по работе с уравнениями в учебнике линейной алгебры.
  2. Алгебра выигрывает от того, что она однозначна, ее легко записывать и легко оценивать. Сложно общаться с помощью картинок или интуиции в масштабе. В моей прежней жизни учителем математики я видел, как многие ученики испытывали трудности, потому что учебная программа США теперь ориентирована на концептуальную основу, но они не могут выполнять вычисления. В конце концов, они рискуют не узнать ни одну из частей.

Дальнейшее чтение

Моим первоначальным намерением было охватить гораздо больше, но это уже довольно длинная статья. Я надеюсь вернуться к остальной части того, о чем я хотел рассказать позже. А пока я дам вам ряд утверждений ниже.

Я надеюсь, что если вы достаточно мотивированы, вы сможете использовать эти утверждения в качестве руководства при чтении других материалов. Честно говоря, если вы уже знаете, что ищете, вы можете узнать об этом в Википедии. Подойдет и учебник линейной алгебры (Strang - самый классический). Есть также ряд учебников линейной алгебры, предназначенных для специалистов по анализу данных, но я не имею в виду справочную информацию.

Итак, вот что вам нужно выяснить:

  • Векторные пространства имеют базы. Лучшие базы - ортонормированные. Важный вывод: числовые элементы в матрице или векторе меняются, когда мы меняем основы, даже если представленные линейные карты и векторы не меняются. Это видео из более раннего продолжает оставаться отличным.
  • В нашем контексте квадратные матрицы - это карты, на которых источник и цель совпадают. Иногда у них есть перевернутые, которые просто отменяют карту. В нашем контексте регрессии все наши квадратные матрицы будут обратимыми до тех пор, пока у нас нет идеальной (мульти) коллинеарности. (Отсюда и использование этого предположения о регрессии).
  • Линейные карты имеют разложение по сингулярным значениям (SVD). Это просто утверждение, что существует ортонормированный базис для источника и цели соответственно, так что матричное представление карты является диагональным. Это довольно просто; пусть вас не пугает алгебра. В нашем контексте X можно рассматривать как матрицу N на p с ненулевыми элементами только в точках (1,1), (2,2),…, (p, p). (Мы всегда предполагали N ›p)
  • (В сторону) в нашем контексте вам не следует пытаться выполнять разложение по сингулярным числам для квадратных матриц, даже если вы можете. Вам действительно нужно собственное разложение, которое не всегда существует. (В нашем контексте, хотя он всегда будет существовать для наших квадратных матриц).
  • Матрица транспонирование в этом контексте представляет собой обратную линейную карту (переход от исходной цели к исходному источнику). В случае нашей X, матрицы размером N на p с N ›p, она не может быть обратной по двум причинам: (а) она должна отбросить любую часть пространства выборки, не входящую в образ X (β). (б) он снова растягивает векторы на сингулярные значения вместо их сжатия. (вам обязательно нужно использовать SVD, чтобы выяснить, что делает транспонирование).
  • (Необязательный касательный) с SVD вы можете погрузиться в Анализ основных компонентов (PCA) и Псевдообратный метод Мура-Пенроуза без особых усилий.
  • Используя разложение X по сингулярным числам, можно концептуально понять матричные формулы для вычисления оценки регрессии β, а также шляпную матрицу H с ŷ = Hy. (H - проекционная матрица). Расчет не требуется.
  • Предположения регрессии следующие: (а) что y - случайный вектор, подчиняющийся многомерному нормальному распределению; (б) со средним где-то на изображение X (β); (c) и матрица дисперсии / ковариации σ²I. Также (d) размер изображения X (β) равен p (нет идеальной мультиколлинеарности). Предположение (c) состоит в том, что если вы изобразите PDF y в нескольких измерениях, вы получите сферу, которая более плотная около центра и менее плотная дальше (сферические ошибки).
  • Исходя из этих предположений, мы можем рассчитать распределение оценочных значений параметров. Важно отметить, что если некоторые X-векторы почти коллинеарны (или почти многоколлинеарны), дисперсия оценок возрастает на коэффициент фактора инфляции дисперсии. Эта последняя часть снова является замаскированной теоремой Пифагора: увеличение дисперсии оценки параметра происходит из-за проецирования любого компонента, параллельного любому другому x.
  • Регрессия гребня добавляет диагональные члены к матрице дисперсии-ковариации, чтобы предотвратить инфляцию дисперсии. Это называется «гребневой» регрессией, потому что диагональ «похожа» на гребень.
  • (Необязательный касательный) в двустороннем дисперсионном анализе, если у вас есть сбалансированная выборка, то x ортогональны, и все в порядке. В противном случае вы должны решить, как распределить дисперсию (тип 1, 2 или 3). Основное преимущество понимания этого состоит в том, что вы можете делать статистический вывод о группе параметров, когда в модели присутствуют другие параметры.

Мы часто слышим, что математика состоит в основном из «теорем доказательства». Работа писателя в основном состоит в том, чтобы «писать предложения»?

- Джан-Карло Рота