Впечатляющий успех Deep Learning делает его похожим на швейцарский армейский нож, способный на все. На самом деле он остается мощным, но узкоспециализированным инструментом. Казалось бы, простые задачи не доступны самым мощным моделям, и проблема обобщения по-прежнему актуальна. Сходится ли глубокое обучение к локальному минимуму, далекому от оптимального решения, воплощенного в биологических нейронных сетях?

Является ли Deep Learning локальным минимумом?

Глубокое обучение: короче говоря

Знакомы ли вы с информатикой или нет, вы наверняка слышали о глубоком обучении, ветви машинного обучения, которая фокусируется на изучении искусственных нейронных сетей (ИНС). Существует феноменальное количество исследований на эту тему. В 2022 году на arXiv.org было опубликовано около 16 000 статей, содержащих это ключевое слово, и эта цифра увеличивается с каждым годом. Этот интерес, который далеко не ограничивается лабораториями, оправдан впечатляющими результатами в различных приложениях: компьютерное зрение, обработка естественного языка, распознавание речи и т. д. Таким образом, ожидания, возлагаемые на эту относительно молодую область, огромны, что, естественно, приводит к чрезмерному восторженные или даже сомнительные обещания.

Действительно, впечатляющие ответы chatGPT и замечательные изображения Dall-E, MidJourney и других генеративных сетей скрывают трудности, с которыми сегодня сталкиваются исследования глубокого обучения. ChatGPT пишет стихи, но не может вычислить простой НОД или выполнить сложение (даже если он выполняет несколько миллиардов операций, чтобы дать вам этот неверный ответ). Отсутствие у него здравого смысла заставляет его уверенно констатировать вздорные заявления. Подобные примеры, часто весьма забавные, кишат социальными сетями, и эта ненадежность распространяется на всю область. Дайте гитару обезьяне, она будет признана человеком по современной модели, см. рисунок 1.

Вне своего тренировочного набора ИНС довольно хрупкие. И некоторые основные задачи, например. вычисления НОД, сегодня даже не поддаются обучению. Почему бы не вдохновиться мозгом нашей обезьяны-гитариста, чтобы устранить слабые стороны ИНС? Но разве они уже не ведут себя как биологический мозг?

Нейронные сети: обезьяна и силикон

Познание человека и животных все еще плохо изучено. Однако электроды не нужны, чтобы увидеть существующий сегодня разрыв между обучением человека и ИНС. Ребенок может быстро отличить собаку от кошки или предсказать траекторию подброшенной в воздух игрушки. ИНС, даже простейшая, требует сотни примеров для достижения тех же результатов. В парадигме контролируемого обучения эти примеры должны быть помечены, что влечет за собой значительные затраты. Другие парадигмы; Обучение с подкреплением, обучение с самоконтролем не требуют этой маркировки, но не являются более эффективными с точки зрения выборки. Так сильно ли ИНС отличаются от нашего мозга?

Более пристальный взгляд на функционирование биологических нейронных сетей подтверждает это несоответствие. Вот некоторые моменты заметных расхождений.

Обратное распространение

Обратное распространение, важный механизм обучения ИНС, похоже, невозможен в мозгу. Аргументы против этого многочисленны и убедительны: сигналы от спайков естественных нейронов невозможно вывести, гипотетические механизмы обратного распространения ошибки кажутся несовместимыми с нашим пониманием естественных нейронов и т. д. Таким образом, ИНС не обучаются так же, как мозг.

Одной из недавних альтернатив, предложенных Джеффри Хинтоном, является Алгоритм прямого распространения, который позволяет обучать ИНС без обратного распространения ошибки. Однако это не похоже на замену, и его близость к биологическому обучению остается ограниченной.

Сверточные нейронные сети

Сверточные нейронные сети (CNN), краеугольный камень современного компьютерного зрения, изначально были основаны на функционировании зрительной коры, но на самом деле весьма существенно отклоняются от функционирования мозга. На самом деле мозг особенно хорошо распознает объекты вне зависимости от их положения в поле зрения или угла обзора благодаря механизмам мысленного вращения/перемещения. Эта возможность, даже в простых случаях, доступна CNN только через большое количество данных и параметров. Эти нейронные сети не способны выполнять этот перевод/вращение и вместо этого полагаются на массовую репликацию нейронов, ответственных за обнаружение определенной формы/объекта, а также на операцию объединения, которая вносит некоторую инвариантность к трансляции, позволяя уменьшить репликацию за счет группировки признаков в единое место. Джеффри Хинтон особенно критикует эту операцию объединения: Операция объединения, используемая в сверточных нейронных сетях, — большая ошибка, а тот факт, что она так хорошо работает, — катастрофа. Он предлагает альтернативную модель Капсулы, которая устраняет эту проблему, направляя информацию о характере объекта, сопровождаемую информацией о местоположении, непосредственно в специализированные подмодели для распознавания конкретных объектов. Этот маршрут, который можно тренировать без обратного распространения, потенциально приближается к функционированию мозга. Опубликованная в 2017 году, эта инновационная архитектура выполнила свои обещания в отношении простых наборов данных (MNIST), но шесть лет спустя стало ясно, что она с трудом убеждает.

Забавный эффект трансляционной инвариантности CNN заключается в том, что пространственное положение компонентов распознаваемого объекта мало что значит. Таким образом, два лица на Рисунке 2 почти идентичны с их точки зрения.

Вопрос о данных

Помимо проблемы архитектуры и обучения, форма данных также важна. Наше тело фиксирует информацию в формате, который может быть более подходящим для обработки нейронами, чем числовые данные, которые мы используем сегодня для обучения ИНС.

Биомиметические данные

Например, наше зрение не основано, как у ИНС, на гигантских пиксельных массивах (изображениях). На самом деле наша сетчатка в каждый момент времени асинхронно стимулируется фотонами. С точки зрения биологического восприятия образов не существует. Этот тип потока можно получить с помощью нейроморфной камеры или камеры на основе событий. Он заменяет массив пикселей серией пар (метка времени, интенсивность), захваченных асинхронно при каждом изменении значения рассматриваемого пикселя. Датчик этого типа имеет важные преимущества с точки зрения уменьшения объема данных, а также частоты кадров и динамического диапазона. Однако вся техническая основа компьютерного зрения основана на анализе массивов пикселей. Поэтому необходимо внедрять инновации, чтобы применить силу глубокого обучения к этому типу данных. Спайковые нейронные сети (SNN), работающие с более или менее частыми стимулами и в значительной степени вдохновленные человеческим мозгом, являются идеальными кандидатами для анализа этого нового вида данных.

Мультимодальные данные

Мультимодальность данных, то есть их разнообразие форматов, также является серьезной проблемой. Было показано, что в человеческом мозгу один и тот же нейрон может реагировать на совершенно разные восприятия. Таким образом, у всех нас был бы нейрон Люка Скайуокера, способный реагировать на изображение, произносимое или написанное имя ученика-джедая. Другой пример: в видеоконференции проще и приятнее общаться с тем, у кого включена веб-камера. Язык тела, обратная связь и т. д. играют решающую роль в общении между людьми. Может ли ИНС понять нас, не имея к ней доступа? Могут ли эти нейронные сети предвидеть гравитацию, не упав или хотя бы виртуально испытав падение? Могут ли они подражать Бетховену, просто читая его партитуры?

Эти вопросы связаны с проблемой, задолго предшествовавшей глубокому обучению, возможности выражения широкого диапазона нашего восприятия в единственной модальности, модальности языка. Это фундаментальный философский вопрос, который в контексте глубокого обучения естественным образом приводит нас к разговору о языковых моделях.

Языковые модели: масштаб — это все, что вам нужно?

ChatGPT, разработанный OpenAI, на сегодняшний день является самым успешным общедоступным чат-ботом. Это текущий публичный пик, который, вероятно, будет быстро превзойден в гонке за все более крупными языковыми моделями, обученными на все более гигантских объемах данных. Эта гонка основана на наблюдении, что простое увеличение размера моделей и их обучающего набора данных позволяет им приобретать новые навыки, например, перевод, обобщение, базовую математику, для которых они еще не прошли специальной подготовки.

Это свойство очень обнадеживает, так как было бы достаточно иметь очень большую вычислительную мощность и много данных для достижения хорошо известного искусственного общего интеллекта (AGI). Тем более, что количество параметров нынешних моделей, хотя и не строго сопоставимое, не так уж и далеко от количества синапсов в человеческом мозгу, в пределах очень малого коэффициента 10³.

Тем не менее, это должно быть умерено. Текущий опыт показывает, что эти модели работают не так хорошо во всех областях. Языковые модели спотыкаются на простых задачах. Математика, например, сложна, как и рассуждения, связанные с физикой или пространственностью. Последние, в частности, плохо представлены текстом. На самом деле язык сам по себе не способен породить здравый смысл и способность к обобщению, поскольку он является носителем лакунарной и неоднозначной информации. Подходы, основанные на символических алгоритмах или использующие упрощенные модели мира, направлены на преодоление этих недостатков с помощью или без помощи глубокого обучения. Но эти подходы не лишены сложностей и пока довольно разочаровывают.

"Мысль остается вне досягаемости языка". — Бергсон (Плохо переведен вашим покорным слугой)

Должны ли мы держаться ближе к биологическому мозгу?

Правомерный вопрос заключается в необходимости оставаться рядом с моделью мозга. В конце концов, наиболее успешные модели распознавания изображений все дальше и дальше уходят от поведения мозга, не переставая совершенствоваться, о чем свидетельствует недавняя эволюция Brain Score, показанная на рис. 3.

Более того, распространение методов немного выстрелов, т. е. обучения на очень небольшом количестве примеров, ставит под сомнение необходимость в огромном объеме данных для обучения ИНС.

Если это работает, зачем пытаться имитировать то, чего мы даже не понимаем? Тем не менее, мы должны признать, что победы глубокого обучения часто имеют более или менее важную часть биомимикрии, т.е. искусственный нейрон, CNN, механизм внимания, отсев и т. д. Таким образом, эти попытки придерживаться функционирования мозга не бесполезны, а страдают от непонимания человеческого познания, а также, возможно, от недостаточного интереса со стороны Исследователи глубокого обучения по этому предмету, хотя это их двойник.

Когда глубокое обучение помогает нам понять мозг

Глубокому обучению еще предстоит многому научиться у человеческого мозга. Но верно и обратное. В этой статье в Nature ИНС (β-VAE) используется для изучения организации нейронов, кодирующих лица, то есть нейронного представления лиц у макак. (Обратите внимание на существование краевого нейрона!). Результат? Можно реконструировать лицо, которое видит обезьяна, прочитав ее нейронную реакцию. Не так далеко от научной фантастики.

Примечательно, что с ИНС можно получить такие же результаты, как и с биологической нейронной сетью, хотя, как мы видели, у них мало общих характеристик. Исследования, сочетающие эти подходы, становятся все более многочисленными.

Заключение

Вряд ли можно говорить о разделении в том смысле, что ИНС никогда не были по-настоящему близки к функционированию мозга. Биомиметические подходы до сих пор имели ограниченный успех, что следует рассматривать в перспективе с разницей в количестве ресурсов, выделяемых на их разработку. 363 публикации Spiking Neural Networks на arXiv.org в 2022 году против почти 16 000 публикаций в целом. Как и в случае с CNN десять лет назад, внедрение специализированного оборудования должно ускорить исследования в этой многообещающей области. Параллельно развитие глубокого обучения открывает новые перспективы для изучения человеческого мозга, предлагая как экспериментальные, так и теоретические инструменты.