Производительность модели глубокого обучения достигла огромных успехов, что позволило исследователям решать задачи, которые были просто невозможны для машин менее десяти лет назад. Тем не менее теоретическая основа, поддерживающая эти улучшения, не продвинулась так далеко, как эмпирическая производительность моделей, и остаются досадные вопросы, в частности: что именно происходит внутри глубокой нейронной сети во время обучения? В статье Открытие черного ящика глубоких нейронных сетей через информацию Шварц-Зив и Тишби используют теорию информации для изучения обучения глубоких нейронных сетей.

Synced пригласил Хоакина Алори, инженера-исследователя по машинному обучению в Tryolabs, специализирующегося на отслеживании объектов, оценке позы и задачах переопределения личности, поделиться своими мыслями по поводу этой статьи.

Как бы вы описали этот документ?

В статье Открытие черного ящика глубоких нейронных сетей через информацию Шварц-Зив и Тишби дают представление о процессе обучения глубоких нейронных сетей, рассматривая его глазами теории информации.

Для своего анализа они берут небольшие, полностью связанные нейронные сети и рассматривают каждый слой в целом как единую случайную величину. Затем они вычисляют взаимную информацию каждого слоя в отношении входных данных в сеть и в отношении данных метки, которые сеть подбирает. Они наносят эти два числа на двухмерную диаграмму, которую они называют информационной плоскостью:

Цвета соответствуют слою, к которому каждая точка принадлежит на первом графике, и эпохе, к которой принадлежит каждая точка на втором. Из этого они получают очень важное понимание.

Во-первых, есть две основные отдельные фазы, через которые нейронная сеть проходит во время обучения с учителем: начальная фаза, называемая минимизацией эмпирических ошибок, и последующая фаза, называемая сжатием представления.

Во время минимизации эмпирических ошибок каждый уровень начинает увеличивать свою взаимную информацию в отношении входов, а также свою взаимную информацию в отношении меток. Это кажется довольно интуитивным, и авторы не тратят много времени на анализ этого этапа. С другой стороны, после того, как эта фаза завершена, сеть проходит новую, гораздо более длительную фазу, называемую Сжатие представления, в которой уровни в сети продолжают увеличивать свою взаимную информацию в отношении меток, но начинают уменьшать свою взаимную информацию. Что касается входов в сеть. Это довольно удивительно, поскольку показывает, что для слоев не только важно иметь возможность игнорировать неважную информацию, закодированную во входных данных, которые они получают, но также и то, что фаза, в которой они начинают выполнять сжатие нерелевантных данных, происходит позже во время обучения. и это хорошо видно, нарисовав простые сюжеты.

Во-вторых, чтобы получить более полное представление о двух этапах обучения, авторы наносят на график нормированное среднее значение и стандартное отклонение градиентов сети для каждого слоя в зависимости от эпох обучения:

Опять же, есть две четко разграниченные фазы. Начальная фаза, на которой средние градиенты намного больше, чем их стандартные отклонения, что указывает на небольшую стохастичность градиента; и последующая фаза, на которой средства градиента очень малы по сравнению с их колебаниями от партии к партии, при этом градиенты ведут себя как гауссовский шум с очень малыми средствами. Они называют начальную фазу фазой дрейфа, а вторую фазу - фазой диффузии. Интересно, что переход между этими двумя фазами соответствует переходу между фазами минимизации эмпирической ошибки и сжатия представления, упомянутыми ранее. Авторы утверждают, что шум, вносимый во второй фазе, приводит к более сжатым представлениям входных данных в каждом слое, который мы видим во время фазы сжатия представления.

Какое влияние это исследование может оказать на научное сообщество?

Этот новый подход к обучению нейронных сетей может быть использован для запуска нескольких новых областей исследований. В качестве побочного примечания авторы этой статьи делают вывод, что:

  • Добавление скрытых слоев резко сокращает количество эпох обучения для хорошего обобщения, или, другими словами, фаза представления сжатия занимает намного больше времени.
  • Фаза сжатия каждого слоя короче, когда он начинается с предыдущего сжатого слоя.
  • В более глубоких слоях сжатие происходит быстрее.

Можете ли вы определить узкие места в исследовании?

Авторы проверили свои результаты на двух очень конкретных архитектурах нейронных сетей, до сих пор неизвестно, будут ли они обобщены на другие архитектуры, такие как свертки, рекуррентные сети или даже не DNN, хотя это кажется вероятным. Кроме того, авторы косвенно подтвердили свои выводы на наборе данных MNIST. Еще осталось подтвердить, обобщаются ли они на более крупные наборы данных, такие как ImageNet, хотя, опять же, это кажется очень вероятным.

Можете ли вы предсказать возможные будущие события, связанные с этим исследованием?

Наиболее важным будущим развитием этой области исследований является вопрос о практических последствиях полученных результатов. Авторы объясняют, что в настоящее время они работают над новыми алгоритмами, включающими их выводы. Они утверждают, что SGD кажется излишеством во время фазы распространения, которая занимает большую часть эпох обучения, и что гораздо более простые алгоритмы оптимизации могут быть более эффективными.

Статья Открытие черного ящика глубоких нейронных сетей через информацию находится на arXiv.

Хоакин Алори - инженер-исследователь по машинному обучению в компании Tryolabs, где в настоящее время работает над отслеживанием объектов, оценкой позы и проблемами повторного идентификатора человека. Tryolabs - это консалтинговая фирма по машинному обучению, с которой компании сотрудничают для создания решений на основе данных, которые приносят результаты. Компания Tryolabs, насчитывающая 150 клиентов, обслуживаемых за десять лет, имеет опыт в консультировании, разработке и развертывании специализированных систем машинного обучения с использованием методов в области компьютерного зрения, обработки естественного языка и прогнозной аналитики. Как часть международного сообщества ИИ, Tryolabs проводит переговоры и семинары по машинному обучению на конференциях по всему миру и делится своим опытом в блоге Tryolabs.

Партнерская программа Synced Insight

Партнерская программа Synced Insight - это программа, доступная только по приглашениям, которая объединяет влиятельные организации, компании, академических экспертов и лидеров отрасли для обмена профессиональным опытом и идеями посредством собеседований, публичных выступлений и т. Д. Synced приглашает всех представителей отрасли к участию приглашаются эксперты, профессионалы, аналитики и другие лица, работающие в области технологий искусственного интеллекта и машинного обучения.

Просто Подайте заявку на участие в партнерской программе Synced Insight и расскажите нам о себе и о своем внимании к искусственному интеллекту. Мы ответим вам, как только ваша заявка будет одобрена.

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной новости. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.