Взгляните на альтернативные алгоритмы обратного распространения ошибки

-Равичандра, исследователь компьютерного зрения, @ Sally Robotics.

С тех пор, как в 1986 году была представлена ​​идея использования обратного распространения для обучения нейронных сетей, обучение с помощью нейронных сетей никогда не оглядывалось назад. Внезапно учебные сети превратились в эффективный процесс, который позволил достичь грандиозных достижений. Он стал отраслевым стандартом, и на нем построено множество фреймворков (Tensorflow, PyTorch), которыми пользуются все. Но постепенно, по мере того как мы пытались тренировать с его помощью все более и более глубокие сети, мы выявили некоторые из его недостатков. В основном это были-

1. Исчезающие градиенты. Сигмоидная и тангенциальная нелинейности имеют тенденцию к насыщению и полностью прекращают обучение. Это происходит, когда выходы нейрона находятся на крайних значениях, в результате чего градиенты равны 0 или близки к 0, то есть исчезают. При использовании ReLU, если нейроны будут ограничены до 0, тогда веса будут иметь нулевые градиенты, что приведет к так называемой проблеме «мертвого ReLU».

2. Взрывающиеся градиенты. В глубоких сетях или RNN градиенты ошибок могут накапливаться во время обновления и приводить к очень большим градиентам. Это, в свою очередь, приводит к большим обновлениям веса сети. В крайнем случае, значения веса могут стать настолько большими, что выйдут за пределы допустимого диапазона, что приведет к появлению значений Nan.

3. В вычислительном отношении дорого: Послойное вычисление градиентов, несомненно, является дорогостоящим в вычислительном отношении процессом. Это заставляет задуматься, есть ли лучший способ оптимизировать функцию потерь.

Хотя они остаются основными недостатками, существуют и другие, такие как выбор гиперпараметров и т. Д., Которые классифицируют скорее как раздражение, чем как недостатки. Итак, что мы тогда с этим сделали? Мы разработали более совершенную сетевую архитектуру, чтобы избежать этих проблем. Архитектура ResNet (https://arxiv.org/abs/1512.03385) - лучший пример, где были созданы пропускаемые соединения, чтобы избежать исчезающих градиентов.

Обратное распространение - ошибочный подход?

Многие известные исследователи, такие как Джеффри Хинтон и Йошуа Бенжио, выразили обеспокоенность по поводу того, что обратное распространение не является идеальным подходом. Нет никаких доказательств того, что наш мозг выполняет обратное распространение, и если это так, как тогда мы можем достичь полного искусственного интеллекта, если мы не моделируем сети по образцу нашего собственного биологического разума? Вопрос о более биологически правдоподобном алгоритме все еще остается, и эта идея дополнительно исследуется в этой статье: https://arxiv.org/abs/1502.04156.

Хинтон больше озабочен существованием другого способа обучения, чем принуждением решений использовать контролируемые данные, то есть обучением без учителя. Он сомневается, что методы, которые он разработал и отстаивал на протяжении многих лет, достигнут первоначальной цели для нейронных сетей, в частности, для автономных обучающихся машин. Несмотря на заметный прогресс последних нескольких лет, мы до сих пор не решили вопрос о том, как человеческий мозг самоорганизуется в отсутствие фиксированной внешней обратной связи с использованием чрезвычайно разреженных данных. Взлом этого может привести к общему алгоритму обучения с учителем и без учителя, а также обучения с подкреплением.

В науке можно говорить вещи, которые кажутся безумными, но в конечном итоге они могут оказаться правильными. Мы можем получить действительно хорошие доказательства, и, в конце концов, сообщество вернется.

- Джеффри Хинтон

Альтернативы

1. Распространение разностной цели

Обратное распространение полагается на бесконечно малые изменения (частные производные) для выполнения присвоения кредита. Это может стать серьезной проблемой, поскольку каждый рассматривает более глубокие и более нелинейные функции, например, крайний случай нелинейности, когда связь между параметрами и стоимостью фактически дискретна. Ссылаясь на это как на мотивацию, этот алгоритм был разработан как альтернатива обратному распространению ошибки. Основная идея состоит в том, чтобы вычислять цели, а не градиенты на каждом слое. В некотором смысле это похоже на обратное распространение, но намного быстрее. Так как же тогда это реализовано? Вот краткий обзор этого -

а. Формулирование целей

б. Назначение правильной цели каждому слою

c. Разница в целевом распространении

d. Обучение автокодировщика с разностным целевым распространением

Хотя это очень абстрактное и высокоуровневое описание метода, я намеренно сохранил его, чтобы углубление в математику и уравнения излишне удлинило статью. Точную математику этого можно найти в этой статье https://arxiv.org/pdf/1412.7525.pdf.

2. Узкое место HSIC (критерий независимости Гильберта-Шмидта)

Подход состоит в том, чтобы обучить сеть, используя аппроксимацию информационного узкого места вместо обратного распространения.

На приведенном выше рисунке представлен обзор того, как проводится обучение с использованием HSIC. Сеть, обученная HSIC, рисунок (a), представляет собой стандартную сеть с прямой связью, обученную с использованием цели HSIC IB, что приводит к скрытым представлениям на последнем уровне, которые можно быстро обучить. На рисунке (b) показана σ-объединенная сеть, где каждая ветвь сети HSIC-net обучается определенному σ.

На следующем этапе будет найдена и развернута замена взаимной информации между скрытыми представлениями и метками. Это одновременно минимизирует взаимную зависимость между скрытыми представлениями и входными данными. Таким образом, каждое скрытое представление из сети, обученной HSIC, может содержать различную информацию, полученную путем оптимизации цели узкого места HSIC в конкретном масштабе. Затем агрегатор суммирует скрытые представления, чтобы сформировать выходное представление. Дополнительную информацию можно найти здесь https://arxiv.org/pdf/1908.01580v1.pdf.

В чем тогда преимущества? Авторы утверждают, что это облегчает параллельную обработку, требует значительно меньше операций и не страдает от исчезающих или взрывающихся градиентов. Более того, это кажется более вероятным с биологической точки зрения, чем обратное распространение. После тестирования сети, обученные HSIC, работали сравнимыми с обратным распространением в наборах данных MNIST и CIFAR-10.

3. Чередующаяся минимизация в режиме онлайн с помощью вспомогательных переменных.

Основным вкладом этой работы является новый онлайновый (стохастический / мини-пакетный) подход с чередующейся минимизацией (AM) для обучения глубоких нейронных сетей вместе с первыми гарантиями теоретической сходимости для AM в стохастических настройках. Это решает проблему оптимизации, разрывая цепочки градиентов с помощью вспомогательных переменных. Эта работа основана на ранее предложенных автономных методах, которые разбивают вложенную цель на более простые для решения локальные подзадачи путем вставки вспомогательных переменных, соответствующих активациям на каждом уровне. Подробнее об этом можно прочитать здесь https://arxiv.org/pdf/1806.09077.pdf.

Итак, что же тогда главный вывод? Мы можем избежать вычисления цепочки градиентов, что означает отсутствие исчезающих градиентов, отсутствие перекрестного распараллеливания и трудности с обработкой недифференцируемых нелинейностей.

4. Разделение нейронных интерфейсов с использованием синтетических градиентов.

Это дает нам возможность позволить нейронным сетям общаться, научиться отправлять сообщения между собой в несвязанной, масштабируемой манере, прокладывая путь нескольким нейронным сетям для связи друг с другом или улучшая долгосрочную временную зависимость повторяющихся сетей.

Правомерным вопросом было бы спросить, сколько вычислительной сложности добавляют эти синтетические градиентные модели - возможно, вам понадобится архитектура синтетической градиентной модели, столь же сложная, как сама сеть. Удивительно, но синтетические градиентные модели могут быть очень простыми. Для сетей с прямой связью было фактически обнаружено, что даже один линейный слой хорошо работает в качестве модели синтетического градиента. Следовательно, его очень легко обучить, и поэтому он быстро создает синтетические градиенты. Подробнее можно прочитать здесь https://arxiv.org/pdf/1608.05343.pdf.

Разработанный исследователями DeepMind, этот метод имеет значительные преимущества благодаря увеличенному временному горизонту, который могут моделировать RNN с поддержкой DNI, а также более быстрой сходимости по сравнению с обратным распространением информации. Синтетические градиенты FTW!

Машины пойдут по пути, отражающему эволюцию человека. В конечном итоге, однако, самоосознающие, самосовершенствующиеся машины будут развиваться, превзойдя человеческие способности контролировать или даже понимать их.

- Рэй Курцвейл

Заключение

Мы обсудили недостатки обратного распространения ошибки, возможные недостатки общего подхода, высказанные известными исследователями, и, наконец, некоторые хорошие альтернативы. В конечном счете, ни один из них нельзя назвать «лучше, чем обратное распространение», потому что все, что они делают, - это достижение конкурентных результатов. Эта неудача может быть объяснена отсутствием проведенных исследований, что заставляет нас ожидать значительного прогресса и развития в ближайшем будущем. Итак, ключевой вывод заключается в следующем: для того, чтобы алгоритм свергнул Backprop, он должен решать проблемы исчезающего и взрывающегося градиента, быть в вычислительном отношении быстрее, быстрее сходиться, предпочтительно уменьшать гиперпараметры и, что наиболее важно, быть биологически правдоподобным. Это гарантирует, что мы продвигаемся в направлении воссоздания человеческого разума, позволяя нам использовать его беспрецедентный потенциал. А пока все, что мы можем сделать, это поэкспериментировать и продолжить исследования!

Ресурсы

Https://analyticsindiamag.com/lets-not-stop-at-back-prop-check-out-5-alternatives-to-this-popular-deep-learning-technique/

Https://analyticsindiamag.com/is-deep-learning-possible-without-back-propagation/

Https://deepmind.com/blog/article/decoupled-neural-networks-using-synthetic-gradients

Https://www.ibm.com/blogs/research/2019/06/beyond-backprop/

Https://arxiv.org/pdf/1412.7525.pdf

Https://arxiv.org/pdf/1908.01580v1.pdf

Https://arxiv.org/pdf/1806.09077.pdf

Https://arxiv.org/pdf/1608.05343.pdf