data2vec и будущее мультимодального обучения

ПОДКАСТ

data2vec и будущее мультимодального обучения

Алексей Баевский об архитектуре ИИ, которая работает с текстом, изображениями, речью, видео и многим другим

Примечание редактора. Ведущим подкаста TDS является Джереми Харрис, соучредитель Mercurius, стартапа, занимающегося безопасностью ИИ. Каждую неделю Джереми общается с исследователями и бизнес-лидерами, работающими в авангарде отрасли, чтобы ответить на самые насущные вопросы, связанные с наукой о данных, машинным обучением и искусственным интеллектом.

Если название data2vec звучит знакомо, то это, вероятно, потому, что оно произвело настоящий фурор в социальных и даже традиционных СМИ, когда оно появилось около двух месяцев назад. Это важная запись в постоянно растущем списке стратегий, ориентированных на создание индивидуальных архитектур машинного обучения, которые обрабатывают множество различных типов данных, таких как текст, изображение и речь.

Большинство методов обучения с самоконтролем включают в себя получение моделью некоторых входных данных (скажем, изображения или фрагмента текста) и маскирование определенных компонентов этих входных данных (например, затемнением пикселей или слов), чтобы заставить модели предсказать эти замаскированные компоненты.

Эта задача «заполнения пробелов» достаточно сложна, чтобы заставить ИИ изучать факты об их данных, которые хорошо обобщаются, но это также означает обучение моделей выполнению задач, которые сильно различаются в зависимости от типа входных данных. Например, заполнение затемненных пикселей сильно отличается от заполнения пробелов в предложении.

Что, если бы существовал способ придумать одну задачу, которую мы могли бы использовать для обучения моделей машинного обучения на данных любого типа? Вот где на помощь приходит data2vec.

В этом выпуске подкаста ко мне присоединился Алексей Баевский, исследователь Meta AI, один из создателей data2vec. В дополнение к data2vec, Алексей принимал участие во многих новаторских работах над текстовыми и речевыми моделями, включая wav2vec, широко разрекламированную неконтролируемую речевую модель Facebook. Алексей присоединился ко мне, чтобы поговорить о том, как работает data2vec и что будет дальше в этом направлении исследований, а также о будущем мультимодального обучения.

Вот некоторые из моих любимых выводов из разговора:

Авторегрессионные модели обычно обучаются заполнять частично затемненные предложения или изображения. Но у этой стратегии есть неотъемлемое ограничение: поскольку заполнение пробелов — это совсем другая задача для текста, чем для изображений, гораздо сложнее использовать эти задачи для обучения одной архитектуры, которая может обрабатывать текст и изображения одновременно. время. Чтобы решить эту проблему, data2vec обучается заполнять пробелы не в изображениях или предложениях, а в скрытых представлениях изображений и текстовых данных, сгенерированных учительской сетью. Это создает общую задачу, которую можно использовать независимо от типа входных данных.
Как указывает Алексей, в data2vec до сих пор используются специализированные методы предобработки, различающиеся в зависимости от типа входных данных. Так что это не совсем универсальная архитектура — она требует целенаправленного обработки входных данных. Однако Алексей считает, что это может измениться: Google AI недавно опубликовал работу, которую они сделали для архитектуры под названием Perceiver, которая использует единые методы предварительной обработки для всех типов входных данных. Объединив предварительную обработку Perceiver, не зависящую от ввода, с обучающей задачей data2vec, не зависящей от ввода, он видит значительный потенциал для новой волны надежных мультимодальных моделей.
Одной из проблем, связанных со все более мультимодальными моделями, является функциональная совместимость: достаточно сложно понять, как глубокие сети обрабатывают данные изображений, когда это все, что они обрабатывают, но что, если та же самая сеть, которая обрабатывает зрение, также обрабатывает текстовые и аудиоданные? Нам может понадобиться новое поколение методов интерпретируемости, чтобы не отставать от масштабируемых мультимодальных систем.
Один вопрос, который Алексей и его команда не задавались, но который интересует Алексея: скрытые представления, которые data2vec создает для слова «собака», похожи или связаны со скрытыми представлениями, которые он создает для изображений собак? Наивно кажется, что это говорит нам что-то о надежности концепций, которые система изучает.
Часто говорят, что машинное обучение — и особенно масштабируемый ИИ — становится программной инженерией. У Алексея есть опыт работы в области разработки программного обеспечения, и, хотя он и видит в этой идее некоторые достоинства, это не привело к тому, что инженеры-программисты получили заметное преимущество в исследованиях ИИ.

Вы можете следить за Алексеем в Твиттере здесь или за мной здесь.

Главы:

0:00 Вступление
2:00 Предыстория Алексея
10:00 Знание программной инженерии
14:10 Роль data2vec в развитии
30:00 Дельта между учеником и учителем
38:30 Потеря способности к переводу
41:45 Влияние больших способностей
49:15 Подведение итогов

data2vec и будущее мультимодального обучения

ПОДКАСТ