Эволюция обратного распространения

Исследования по улучшению обучения алгоритмов для повышения точности

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Еще в 1986 году Джеффри Хинтон стал соавтором статьи, посвященной методу обратного распространения. Спустя десятилетия этот подход стал одним из важнейших алгоритмов машинного обучения. Обратное распространение - это метод трудолюбия, лежащий в основе большинства достижений, которые мы наблюдаем в ИИ сегодня, и который по-прежнему играет ключевую роль в будущих достижениях ИИ.

Как работает обратное распространение? Затем метки выравниваются и повторно выравниваются, слой за слоем, пока сеть не сможет работать разумно с наименьшим возможным количеством ошибок. Цель обратного распространения - вычислить градиент функции ошибок, чтобы узнать, увеличивать или уменьшать веса и смещения, чтобы минимизировать квадрат ошибки.

Несмотря на его важность, было предпринято несколько попыток с некоторым успехом изменить варианты подхода обратного распространения. Однако модификации уравнений обратного распространения не получили широкого распространения, поскольку эти алгоритмы вряд ли когда-либо улучшат практические приложения.

Достижение быстрого и эффективного обучения с обратным распространением информации

Руководствуясь последними достижениями в области автоматизированных методов поиска для машинного обучения, некоторые исследователи Google придумали способ автоматического создания уравнений обратного распространения.

Как работает новый подход: исследователи предприняли попытки изменить обратный вычислительный граф и реализовать метод поиска, чтобы найти лучшие формулы, которые генерируют совершенно новые правила распространения. Они используют эволюционный алгоритм для поиска возможных обновлений уравнений. Контроллер эволюции отправляет набор модифицированных уравнений обновления пулу рабочих для оценки на каждой итерации. Затем каждый рабочий обучает фиксированную архитектуру нейронной сети, используя полученное измененное уравнение, и сообщает контроллеру о достигнутой точности.

Возможное использование и эффекты

Исследователи обнаружили некоторые варианты, которые могут работать так же, как традиционный подход обратного распространения. Эти вариации позволяют повысить точность за короткие периоды обучения и, следовательно, могут использоваться для улучшения алгоритмов принятия решений, основанных на точности.

Мой вывод: поскольку обратное распространение является краеугольным камнем для глубоких нейронных сетей, сообщество ИИ может воспользоваться этими недавно открытыми вариантами для улучшения обучения для всех видов нейронных сетей.

Подробнее: https://arxiv.org/pdf/1808.02822.pdf

Спасибо за чтение. Прокомментируйте, поделитесь и не забудьте подписаться! Также подписывайтесь на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!