В моем резюме лекций профессора Эндрю Нг из Стэнфордского курса машинного обучения я поделился, что вы можете представить обучение с учителем как нахождение дна самой низкой долины на функции стоимости, которая представляет собой ошибка между предсказаниями модели и правильными ответами в обучающих данных. Это удобная метафора, потому что нам легко визуализировать 3D-ландшафт с озерами, холмами и долинами — и мы пытаемся добраться до минимально возможной высоты.

В более ранних курсах по машинному обучению и глубокому обучению профессор Нг говорил о важности начинать с разных наборов инициализированных параметров, чтобы убедиться, что вы избегаете локальных оптимумов. С нашей метафорой местности это имеет смысл: мы не хотим просто оказаться на дне альпийского озера, мы хотим добраться до самой низкой возможной высоты дальше вниз по горе.

Но в лекциях профессора Эндрю Нг для специализации глубокого обучения deeplearning.ai он делится тем, что теперь мы знаем, что не так важно беспокоиться о локальных оптимумах, потому что оказывается, локальные оптимумы очень редки в многомерном пространстве. … но почему?

Я принял это, но хотел интуитивно понять, почему это так. В этой заметке я поделюсь своим простым мысленным экспериментом, который привел меня к этой интуиции:

Представьте функцию стоимости простой модели в виде двумерного графика. Например, модель оптимизирует функцию стоимости только с одним параметром, таким как вес для одного входа. Вы можете представить эту функцию стоимости в виде волнистой линии, где некоторые волнистые линии являются локальными оптимумами, а одна — глобальным оптимумом.

Теперь давайте представим, что мы добавили к этой модели еще один параметр, чтобы сделать ее немного более сложной: модель теперь имеет два параметра, поэтому теперь у нее есть функция трехмерной стоимости. Вы можете представить это как нашу метафору местности из предыдущего. Теперь мы можем видеть, что волнистая линия — это всего лишь одно сечение нашего трехмерного ландшафта. Некоторые из этих закорючек теперь представляют собой речные долины, а некоторые — озера. Речные долины больше не являются локальными оптимумами, потому что они в конечном итоге ведут нас вниз к более низкой высоте, но озера по-прежнему являются локальными оптимумами, не позволяя нам спускаться ниже.

Поскольку мы добавили дополнительное измерение, некоторые локальные оптимумы, двумерные «озера», на самом деле были поперечным сечением трехмерных речных долин, которые в конечном итоге привели к глобальному минимуму.

Если мы добавим еще одно измерение, у нас есть хоть какие-то основания полагать, что эта тенденция продолжится: некоторые из наших 3D-озёр оказываются 4D-«речными долинами», ведущими ещё ниже, а некоторые из наших 4D-«озер» оказываются быть 5D «речными долинами».

С каждым дополнительным измерением локальные оптимальные озера становятся немного реже. Теперь применим эту интуицию к функции стоимости 10D модели с 10 параметрами или функции стоимости 100D модели со 100 параметрами. параметры. Многие современные модели глубокого обучения имеют тысячи, миллионы и даже миллиарды параметров. Например, GPT-3 имеет 175 миллиардов параметров. Сколько альпийских озер останется, когда мы достигнем территории в 175 миллиардов измерений?

Спасибо за чтение.