Это окажется проще, чем вы думаете.

OLS, несомненно, является одним из самых фундаментальных алгоритмов машинного обучения. Идея очень проста, учитывая набор данных, алгоритм ищет гиперплоскость, которая минимизирует сумму квадратов смещений от гиперплоскости к каждой из точек в наборе данных.

Медленно читаем последнее предложение и рассматриваем гиперплоскость

мы можем получить функцию потерь как

где (x, yᵢ) — элемент (наблюдение) в наборе данных, длина которого m .

К счастью, у этого есть только один минимизатор, то есть есть один уникальный

это абсолютно минимизирует количество, при условии, что m›n, в противном случае наш набор данных действительно крошечный, и потери, очевидно, равны нулю без уникального минимизатора.

Смысл существования этой статьи состоит в том, чтобы прийти к выводу для решения в замкнутой форме задачи МНК, также известной как нормальное уравнение, и для этого мы будем использовать немного матричного исчисления (наряду с некоторой матричной алгеброй). ), что значительно облегчит нам жизнь за счет вывода.

В частности, нас будет интересовать следующее тождество:

который относится к дифференцирующим скалярам по отношению к векторам и может быть использован для получения многих других скаляров с помощью векторных дифференцирующих тождеств. Теперь ясно, установив A=I и v=u, мы получим

Хотя совсем нетрудно вывести это тождество, исходя из первых принципов, представленное выше общее тождество окажется еще более полезным, когда дело доходит до поиска замкнутых форм или итерационных схем, относящихся к другим алгоритмам, таким как итерационно-взвешенные методы наименьших квадратов и алгоритмы наименьших квадратов. наименьшие абсолютные отклонения, поэтому хорошо взять его за отправную точку. А пока давайте приступим к работе с OLS.

Начнем с написания

as

обратите внимание, как J выглядит менее изогнутым, чтобы далее записать это в матричной форме, мы имеем

Где Y — вектор-столбец со всеми yᵢ' в нашем наборе данных и с каждым соответствующим вектором-строкой xᵢ, находящимся в матрице ИКС. Чтобы минимизировать такую ​​функцию потерь, нам нужно продифференцировать ее (скалярную) по Θ (вектору) и установить ее равной нулю.

Используя тождество, мы имеем, что

Термин справа дает -X путем распределения оператора дифференцирования и принятия Y и X в качестве констант.

Разделив обе части на -2, а затем переставив обе части, мы получим

И используя базовую матричную алгебру, мы имеем

и, наконец, решая для Θ, чтобы округлить наш результат, мы получаем

Что является нормальным уравнением. Имея набор данных, все сводится к простому построению матрицы X и вектора Y, а затем к подстановке закрытого от, чтобы просто найти коэффициенты гиперплоскости, которые лучше всего минимизируют функция потерь, то есть, когда у нас есть Θ, мы можем использовать гиперплоскость

чтобы вывести подходящее значение для y на основе значений функций x, что в целом является достойной моделью машинного обучения, особенно если ваш набор данных удачно следует линейному тренду или приближается к нему.

Надеюсь, эта статья была вам полезна, au revior.

Использованная литература:

[1]: Шубхам Шаран. (21 июня 2019 г.). Искал "Расчет". https://unsplash.com/photos/Z-fq3wBVfM