Математика является неотъемлемой частью машинного обучения, хотя в реальном мире машинное обучение в основном связано с программированием, и вам не нужно глубоко погружаться в тонкости теории вероятностей, алгебры и исчисления, но интуитивное понимание этих алгоритмов может действительно помочь при их использовании в реальном мире. вместо того, чтобы использовать их как черный ящик. В этой серии я планирую осветить некоторые из самых популярных алгоритмов машинного обучения в математическом аспекте.

Что такое регресс?

Задачи контролируемого обучения бывают двух типов: проблемы классификации и регрессии. Когда измерение результатов является количественным, это называется проблемой регрессии. Пример проблемы регрессии - прогнозирование цен на жилье.

Линейная регрессия - формулировка

Линейная регрессия дает линейное решение проблемы регрессии, она соответствует линейной кривой на ваших точках данных таким образом, чтобы общее расстояние этих точек от линии было минимальным. Таким образом, мы можем сказать, что линейная регрессия сводится к задаче оптимизации.

На рис. 1. показана плоскость как решение задачи регрессии, полученное с помощью линейной регрессии. Выходное значение откладывается по оси Y, а X1 и X2 обозначают функции.

Модель линейной регрессии задается уравнением 1.

Последняя постановка задачи линейной регрессии - найти такое значение βj, чтобы остаточная сумма квадратов была минимальной. Остаточная сумма квадратов определяется уравнением

RSS - это просто сумма квадрата ошибки прогнозируемого значения f (X) и фактического значения y.

Таким образом, решение проблемы может быть просто дано путем нахождения частной производной RSS по t β и приравнивания ее к 0 для экстремального значения.

Упрощение до векторизованного формата

Вышеупомянутое уравнение RSS в его текущей форме довольно сложно оптимизировать, поэтому здесь мы представляем решение в терминах векторов.

Пусть X - матрица входных данных, каждая строка которой обозначает вектор различных характеристик. Вы можете взять пример прогнозирования цен на жилье, где может быть несколько функций, таких как площадь земли, площадь застройки, расположение вдоль столбцов, а несколько строк будут занимать разные значения данных. Таким образом, X будет матрицей N X (p + 1) (eq2). Точно так же все yi могут быть объединены в один вектор NX1.

Это важная часть для понимания векторизации, если вы ее поняли, остальная часть процесса довольно проста. Проблема в том, как представить сумму квадратов N чисел в векторизованном формате?

То есть пусть A = [a1, a2, a3 …… an], как вы можете представить a1² + a2²… + an² в терминах A? Ответ состоит в том, чтобы умножить вектор A на его транспонирование, таким образом

Теперь, когда мы уже указали векторизованное представление x и y, уравнение RSS не требует ничего, кроме суммы квадратов, поэтому в векторизованной форме уравнение становится

Поскольку это квадратное выражение, принимающее производную, мы получим

Мы можем видеть, что производная второго порядка снова является суммой квадратов x, поэтому всегда будет положительной, и мы знаем, что если производная второго порядка положительна в экстремумах, она представляет собой минимум. Таким образом, мы можем с уверенностью сказать, что приравнивание производной первого порядка к 0 даст нам минимум.

Это линейное уравнение относительно β, решение которого может быть дано уравнением

Теперь мы рассчитали наши параметры β на основе данных обучения X и выходных значений y. Теперь, чтобы предсказать значение входа X, мы будем использовать вычисленное значение β. По уравнению

Визуализация решения линейной регрессии

Мы можем получить хорошее геометрическое представление о линейной регрессии на основе уравнений 6 и 8.

Уравнение 6 возможно только в том случае, если оба перемножаемых вектора ортогональны, поэтому на следующем рисунке четко показано положение этих векторов в пространстве размерности p + 1.

здесь yˆ представляет собой прогнозируемое значение, то есть βx, поэтому мы можем сказать, что прогнозируемое значение линейной регрессии всегда является проекцией реальных значений y на гиперплоскость пространства признаков X.

В этой простой модели есть еще много тонкостей, которые я планирую осветить в будущем.

Спасибо за прочтение!!!!