Давайте начнем с мема, который в последнее время показался мне забавным, и я не мог не прикрепить его к своей самой первой статье на Medium. Гоша, я очень взволнован.

Тут ничего не происходит:

В этой статье вы найдете разумную разбивку статьи ICLR 2017 под названием «Понимание глубокого обучения требует переосмысления обобщения».

Абстрактный:

Первое, на что следует обратить внимание в этой знаменательной статье в этой области, — это тот факт, что когда авторы пишут «DNN», они говорят о InceptionV3, AlexNet и многоуровневых персептронах [1x512] (это была статья 2017 года). Кроме того, в статье исследуются свойства обобщения различных известных моделей распознавания изображений. Обобщение - это разница между обучением и ошибкой тестирования. Это указывает на то, что мы не можем придумать «функцию обобщения», которая принимает нейронную систему в качестве информации и дает показатель качества обобщения.

Значительный вклад:

Глубокие нейронные сети легко соответствуют случайным меткам (достигая ошибки обучения, равной 0, и ошибки теста, которая просто случайным образом угадывает метки, как и ожидалось).

⇒ Эти архитектуры могут просто запоминать обучающие данные методом грубой силы.
Глубокие нейронные сети подходят к случайным изображениям (например, гауссовскому шуму) с нулевой ошибкой обучения. Авторы приходят к выводу, что VC-размерность/сложность по Радемахеру и равномерная устойчивость являются плохими объяснениями возможностей нейронных сетей по обобщению.

Авторы приводят конструкцию двухслойной сети с:

p = 2n+d

(параметры — где n — количество выборок, а dis — размер каждой выборки — которые легко подходят для любой маркировки.)

Глубокие нейронные сети легко соответствуют случайным меткам.
Как при рандомизации меток, замене изображений необработанным шумом, так и во всех промежуточных обстоятельствах.

Эффективной мощности нейронных сетей достаточно для запоминания всего набора данных. Даже оптимизация случайных меток остается простой. На самом деле время обучения увеличивается лишь на небольшой постоянный коэффициент по сравнению с обучением на истинных метках. Рандомизация меток — это исключительно преобразование данных, при котором все остальные свойства задачи обучения остаются неизменными.

Явная регуляризация может повысить производительность обобщения, но сама по себе она не является ни необходимой, ни достаточной для контроля ошибки обобщения. Под явной регуляризацией они подразумевают нормализацию партии, уменьшение веса, отсев, увеличение данных и т. д. Как правило, большие нейронные сети могут выражать любую маркировку обучающих данных.

Более формально, очень простая двухслойная сеть ReLU с параметрами p = 2n + d может выражать любую маркировку любой выборки размера n в d измерениях.

Сам алгоритм оптимизации неявно регуляризирует решение. SGD действует как неявный регуляризатор, а свойства наследуются моделями, обученными с помощью SGD.

Авторы также показывают, что эти сети могут соответствовать обучающему набору со 100% точностью, даже если метки на изображениях случайны или пиксели генерируются случайным образом. Регуляризация, такая как снижение веса и выпадение, не останавливает переоснащение в той степени, в которой ожидалось, но по-прежнему приводит к точности около 90% на случайных данных обучения.

Затем они утверждают, что эти модели, вероятно, используют массовое запоминание в сочетании с изучением шаблонов низкой сложности, чтобы хорошо справляться с этими задачами.

Комментарий:

Результаты были предсказуемы, поскольку они были интуитивно очевидны. Тем не менее, он дает некоторые ключевые идеи, которые помогают нам лучше понять выбранную архитектуру и их работоспособность с консолидированным подходом к целостной привязке свойств регуляризатора и экспериментированию с одним и тем же в разных условиях и определению характеристик одного и того же выхода.