В этой части моей серии о линейной регрессии я думаю, что это хорошая возможность представить линейную алгебру, которая используется в линейной регрессии. Если вы следили за моими предыдущими сообщениями, вы видели, что модель простой линейной регрессии (SLR) может быть представлена ​​следующим образом:

Интерпретация этой модели будет включать временное игнорирование члена ошибки эпсилон и наблюдение за тем, что существует «идеальная линия регрессии», которая проходит через линейно связанный набор точек данных на диаграмме рассеяния X и Y. Линия создана с помощью бета-версий, о которых я упоминал в предыдущем уроке, и ее можно увидеть как плоскость на изображении ниже. Просто чтобы убедиться, что у вас есть точное понимание концепции, это просто гипотетическая плоскость регрессии, и потенциально могут быть более точные плоскости регрессии, которые существуют для данных.

Из изображения видно, что для данной точки x существует связанная точка y, которая существует вертикально над ней и отличается от «истинной плоскости регрессии».Разница между точкой y и плоскостью регрессии составляет член ошибки эпсилон, который находится в уравнении. Он может быть положительным, если он выше плоскости, или отрицательным, если ниже плоскости. Таким образом, для набора данных с двумя столбцами точек данных x и y их можно интерпретировать таким образом для общего количества пар «n».

Однако это может быть утомительным способом записи таких точек данных, и их можно записать другим способом, с которым удобнее работать. Чтобы избежать написания полного уравнения для каждой пары данных в потенциально большем наборе данных, его можно сократить, используя векторную запись из линейной алгебры. Это особенно сэкономит время и энергию при множественной линейной регрессии (MLR), где есть несколько пар X и бета (указывающих на несколько предикторов). Сокращенную версию можно увидеть в следующей формуле:

Для тех, у кого нет опыта работы с линейной алгеброй в колледже, я попытаюсь объяснить более простые аспекты, которые здесь задействованы. Раньше были отдельные уравнения, которые представляли порядок Y из воображаемого набора данных. Набор Y был собран в то, что известно как вектор. Обозначение векторов в линейной алгебре может использоваться жирным шрифтом, определенной стрелкой, указывающей вправо (из физики), или волнистой линией под переменной (аналогично волнистой линии, обозначающей опечатку в Microsoft Word).

Если это для вас в новинку, возможно, вам будет интересно узнать больше о матричной математике в Академии Хана.

Понимание модели линейной регрессии с точки зрения векторов и матриц жизненно важно для более интуитивного понимания ее использования как в науке о данных, так и в машинном обучении. Распространенным пакетом в Python, который использует векторы и матрицы для линейной алгебры, является Numpy. Чтобы иметь дело с большими наборами данных, важно поместить данные в массивы, которые можно рассматривать как векторы и матрицы. Это позволяет выполнять над ними математические операции, такие как линейная регрессия.

Вот пример из scikit-learn.

Вам нравится изучать статистику и ее приложения в науке о данных и машинном обучении? Для будущих обновлений не стесняйтесь подписываться на мои сообщения через форму подписки на правой панели. Кроме того, я ценю любую положительную критику, которую можно отправить через контактную форму в строке меню.

Источники: Nuen Tsang YANG, PSU, LaTeX

Первоначально опубликовано на yuqizheng.com 4 февраля 2018 г.

Помогите нам работать в ночные смены, купив нам чашку кофе