Задача наименьших квадратов для любых A ∈ ℝ ^ {m × n} и b ∈ ℝ ^ {m}.

У этой проблемы всегда есть хотя бы одно решение, так как это выпуклая оптимизация; но решение не может быть уникальным. Он может иметь несколько минимумов с одинаковым значением функции.
В частности, если x минимизировать остаток, тогда x + y также минимизирует остаток для всех y ker (A). Общее решение задачи наименьших квадратов:

Случай I. Размерность ker (A) равна нулю.
Размеры ker (A) равны нулю. Это означает, что будет только одно решение, то есть конкретное решение.
Размерность ker (A), равная нулю, также означает, что столбцы A линейно независимы и псевдо Обратный к A равен левому обратному значению A.

Случай II: размерность ker (A) не равна нулю.
В этом случае будут бесконечные решения наименьших квадратов с обобщенным решением следующим образом :

Если размеры ker (A) не равны нулю, это означает, что столбцы A линейно зависимы, а левый обратный не будет существовать для матрицы A.

Поэтому нам нужно специально найти псевдообратную величину A. Подберем конкретное решение. Таким образом, любое другое решение будет состоять из этого плюс вектор (y), который лежит в ker (A). Таким образом, любое другое решение будет длиннее, чем конкретное решение. Таким образом, псевдообратный алгоритм не только сделает ошибку как можно меньше, но и сделает выбор x как можно меньше!
Итак, как найти решение, которое является самым маленьким, то есть как найти конкретное решение ???

Решая задачу наименьших квадратов с помощью алгоритма SGD, мы не можем гарантировать, что наше решение сойдется с частичным решением. Но мы специально хотим найти конкретное решение, так как оно имеет наименьшую норму L2 и хорошие свойства.

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в минимизацию по методу наименьших квадратов можно включить член регуляризации.

Что касается любого решения по методу наименьших квадратов, значение функции одинаково. Таким образом, с регуляризацией SGD не только минимизирует наименьшие квадраты, но и норму L2 для x, что гарантирует его сходимость к конкретному решению, а не к любому другому решению. У регуляризации есть и другие преимущества, которые я постараюсь обсудить в другой статье. Но здесь необходимо применить регуляризацию, чтобы свести алгоритм SGD к конкретному решению.

В противном случае мы можем продолжить решение в закрытой форме, найдя псевдообратную величину A, что нежелательно из-за численных ошибок и ошибок точности при нахождении псевдообратной величины A

Спасибо за прочтение :)