Существуют разные виды данных. Архитектуры нейронных сетей тоже бывают разные.

Некоторые варианты сетевой архитектуры могут быть очевидны, но машинное обучение — это наука об экспериментах. Сеть, созданная для обработки изображений, может хорошо работать и с текстами.

На сегодняшний день нейронные сети имеют 4 основные архитектуры: плотно связанные нейронные сети, сверточные нейронные сети (Convnets), рекуррентные нейронные сети (RNN) и преобразователи.

Что это за сети и для каких данных они подходят?

Плотно связанные нейронные сети

Плотно связанные сети состоят из стопок слоев от входа до выхода.

Единицы (или нейроны) любого слоя в сети этого типа связаны со всеми другими единицами следующего слоя. Вот почему их также называют полносвязными слоями.

Плотно связанные сети обычно используются для табличных данных. Табличные данные — это виды данных, представленные в табличной форме. Примером табличных данных являются записи о клиентах: у вас есть столбец с именами, ролями, объединенными данными и т. д.…

Плотные слои также используются (в сочетании с другими архитектурами) в качестве последнего слоя в задачах классификации или регрессии. Правильное количество единиц в последнем слое зависит от задачи. Возьмем пример: если вы классифицируете новости по 4 категориям, то в последнем слое будет 4 единицы. Если вы прогнозируете цену дома с учетом его характеристик, последний слой будет иметь 1 единицу.

Сверточные нейронные сети (CNN)

CNN, также известные как Convnets, широко известны как архитектуры нейронных сетей, когда дело доходит до обработки изображений, но их также можно использовать в других данных, таких как тексты и временные ряды.

Convnets обычно состоят из свертки, слоев пула и полносвязных слоев в конце. Сверточные слои используются для извлечения пространственных признаков в изображениях, а объединяющие слои используются для сжатия результирующих карт признаков из сверточных слоев. И полностью связанные слои для целей классификации.

Convnets имеют 3 измерения. Наиболее популярным является Conv2D, который используется в изображениях и видео, разделенных на кадры. Conv1D используется в последовательных данных, таких как тексты, временные ряды и звуки. Популярная звуковая архитектура под названием WaveNet состоит из 10 сложенных 1D Convnets.

Conv3D используется в видео и объемных изображениях, таких как компьютерная томография.

Рекуррентные нейронные сети (RNN)

Стандартная сеть прямой связи (или называемая сетью с плотной связью) сопоставляет вход с выходом. RNN выходят за рамки этого. Они могут поддерживать повторяемость данных на каждом временном шаге.

Благодаря своей способности сохранять повторяемость информации RNN обычно используются в последовательных данных, таких как тексты и временные ряды.

Базовые ячейки RNN неэффективны при обработке больших последовательностей из-за нехватки памяти. Они также страдают от исчезающих градиентов.

Вариант RNN, способный обрабатывать длинные последовательности, называется долговременной кратковременной памятью (LSTM). LSTM также может обрабатывать последовательности переменной длины.

Особое конструктивное отличие ячейки LSTM заключается в том, что у нее есть ворота, которые являются основой того, почему она может контролировать поток информации на многих временных шагах.

Короче говоря, LSTM использует вентили для управления потоком информации от текущего временного шага к следующему временному шагу следующими 4 способами:

  • Входной вентиль распознает входную последовательность.
  • Ворота забывания избавляются от всей нерелевантной информации, содержащейся во входной последовательности, и сохраняют соответствующую информацию в долговременной памяти.
  • Ячейка LTSM обновляет значения состояния ячейки.
  • Выходные ворота контролируют информацию, которая должна быть отправлена ​​на следующий временной шаг.

Способность LSTM обрабатывать долгосрочные последовательности делает ее подходящей архитектурой нейронной сети для различных последовательных задач, таких как классификация текста, анализ настроений, распознавание речи, создание подписей к изображениям, машинный перевод.

Еще одна рекуррентная нейронная сеть, которую вы увидите, — Gate Recurrent Unit (GRU). GRU — это упрощенная версия LSTM, и ее обучение дешевле.

Трансформеры

Хотя рекуррентные нейронные сети все еще используются для последовательного моделирования, у них возникают проблемы с кратковременной памятью при использовании для длинных последовательностей, и они требуют больших вычислительных ресурсов. Неспособность RNN обрабатывать длинные последовательности и дороговизна — две основные мотивации преобразователей.

Трансформеры — одно из последних новаторских исследований в сообществе естественного языка. Они в значительной степени основаны на механизмах внимания, которые изучают отношения между словами предложения и обращают внимание на соответствующие слова.

Одной из самых примечательных особенностей трансформаторов является то, что они не используют рекуррентные или сверточные слои. Это всего лишь механизмы внимания и другие стандартные слои, такие как слой внедрения, плотный слой и слои нормализации.

Они обычно используются в языковых задачах, таких как классификация текста, ответы на вопросы и машинный перевод.

Были исследования, показывающие, что их также можно использовать для задач компьютерного зрения, таких как классификация изображений, обнаружение объектов, сегментация изображений и создание подписей к изображениям с визуальным вниманием.

Чтобы узнать больше о трансформере, посмотрите его потрясающую бумагу.

Это конец статьи. Мы можем обобщить рассмотренные нами архитектуры нейронных сетей по их наборам данных:

  • Табличные данные: Плотно связанные нейронные сети.
  • Изображения: 2D сверточные нейронные сети (также известные как Convnets).
  • Тексты: рекуррентные нейронные сети (RNN), преобразователи или 1D Convnets.
  • Временные ряды: RNN или 1D Convnets
  • Видео и объемные изображения: 3D Convnets или 2D Convnets (с видео, разделенным на кадры)
  • Звук: 1D Convnets или RNNS.

Сообщество машинного обучения очень активно. Не требуется много времени, чтобы обещанная техника исчезла, а забытые техники появились по незнанию. Просто возьмем пример недавнего исследования, в котором для компьютерного зрения использовалось многоуровневое восприятие (MLP-Mixer: полностью-MLP-архитектура для зрения), утверждая, что Convnets и преобразователи не нужны.

Все, что говорит о том, что эта область будет продолжать развиваться, и я надеюсь, что вы и я можем сделать все возможное, чтобы идти в ногу со временем, не затрагивая наши основные потребности как людей.

Спасибо за чтение.

Каждую неделю я пишу одну статью о методах машинного обучения, идеях или лучших практиках. Вы можете помочь этой статье дойти до многих людей, поделившись ею с друзьями или техническими сообществами, частью которых вы являетесь.

И свяжитесь со мной в Твиттере и подпишитесь на эту рассылку новостей, в которой я начинаю делиться еще некоторыми идеями, над чем я работаю, и заметками о последних новостях машинного обучения.

P.S. ППШ — это…