Модель обеспечивает уникальную архитектуру и революционную производительность при решении различных задач по переводу речи.

Недавно я запустил образовательный информационный бюллетень, посвященный искусственному интеллекту, у которого уже более 160 000 подписчиков. TheSequence — это информационный бюллетень без всякой ерунды (то есть без шумихи, новостей и т. д.), ориентированный на машинное обучение, чтение которого занимает 5 минут. Цель — держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Речь быстро становится одним из следующих направлений фундаментальных моделей. Хотя такие области, как язык и компьютерное зрение, по-прежнему доминируют в заголовках, речь становится все более важной областью. Такие области, как перевод речи в речь (S2ST), опираются на каскадные архитектуры, которые объединяют большое количество компонентов для постепенного выполнения перевода. В результате в этой области не наблюдается такого же прогресса, как в других областях моделей фундаментов. Недавно компания Meta AI Research представила исследование, лежащее в основе SeamlessM4T — массового многоязычного и мультимодального машинного перевода, унифицированной модели речевой основы для различных задач перевода речи.

В сегодняшней экосистеме базовой модели существующие системы машинного перевода (МП) преимущественно вращаются вокруг текста, отодвигая на второй план речевую поддержку, если она вообще существует. Интеграции речи в среду MT часто отводили второстепенный статус по сравнению с ее текстовым аналогом. Несмотря на достижения одиночных унимодальных моделей, реализация унифицированных моделей S2ST, достигающих сопоставимой широты и эффективности, остается далекой. Это несоответствие, коренящееся в модальностях, можно объяснить различными факторами, однако нехватка аудиоданных и ограничения моделирования остаются серьезными препятствиями. Сама сложность, которая делает речь более сложной задачей с точки зрения машинного перевода (ее способность кодировать более богатую информацию и выразительные элементы), также делает ее превосходной в передаче намерений и развитии надежных социальных связей между участниками разговора.

Нынешний ландшафт таких систем характеризуется тремя основными недостатками.

1. Фокус моделей перевода речи преимущественно тяготеет к языкам с высокими ресурсами, таким как английский, испанский и французский, часто игнорируя языки с низкими ресурсами.

2. Они преимущественно обслуживают переводы с исходных языков на английский, а не обратное направление.

3. Большинство систем S2ST в настоящее время в значительной степени опираются на каскадные структуры, состоящие из нескольких последовательных подсистем, которые поэтапно обрабатывают перевод — начиная с автоматического распознавания речи (ASR), заканчивая T2TT и заканчивая преобразованием текста в речь (TTS). синтез как часть трехуровневой архитектуры.

Попытки объединить эти многогранные возможности в рамках единого объекта привели к появлению первоначальных версий комплексных систем перевода речи. Однако эти системы еще не достигли показателей производительности, установленных их каскадными аналогами.

БесшовныйM4T

SeamlessM4T (многоязычный и мультимодальный машинный перевод) — это интегрированная платформа, включающая функции ASR, T2TT, перевода речи в текст (S2TT), перевода текста в речь (T2ST) и S2ST. Модель основана на долгой истории прорыва Meta AI в области перевода речи. Примечательно, что в прошлом году Meta AI представила No Language Left Behind (NLLB) — модель машинного перевода текста в текст, разработанную для охвата впечатляющих 200 языков. В последующие месяцы Meta AI продемонстрировала новаторский универсальный переводчик речи. Эта новаторская система облегчила прямой перевод речи в речь для хоккиена, языка, для которого характерно отсутствие широко распространенной системы письма. Это начинание также привело к созданию SpeechMatrix, монументального многоязычного набора данных для перевода речи в речь. Этот набор данных, созданный благодаря инновационной технологии SpeechLASER, стал важной вехой в области обучения с учителем. Следующий шаг материализовался ранее в этом году с открытием технологии массового многоязычия. Это комплексное предложение включало в себя возможности автоматического распознавания речи, идентификации языка и синтеза речи, охватывающие обширный набор из более чем 1100 языков.

Появляется SeamlessM4T, синтезирующий идеи, почерпнутые из этих разнообразных проектов. Результатом является преобразующий многоязычный и мультимодальный опыт перевода, основанный на единой модели. Эта модель тщательно построена на основе обширного спектра устных источников данных и приводит к самым современным результатам.

Для построения единой модели Meta AI требуется легкий набор инструментов для моделирования последовательностей, который можно легко интегрировать с другими современными библиотеками экосистемы PyTorch. Чтобы удовлетворить эту потребность, Meta AI обновила fairseq, свой оригинальный набор инструментов для моделирования последовательностей. Включив более эффективные API-интерфейсы моделирования и загрузки данных, fairseq2 теперь играет ключевую роль в управлении базовыми процессами моделирования SeamlessM4T.

В основе модели лежит многозадачная архитектура модели UnitY, предназначенная для выполнения ряда функций, включая генерацию переведенного текста и речи. Эта архитектура также обеспечивает автоматическое распознавание речи, перевод текста в текст, преобразование текста в речь, перевод речи в текст и перевод речи в речь — функции, которые уже присущи базовой модели UnitY. Многозадачная модель UnitY построена на основе трех основных последовательных компонентов. Кодировщикам текста и речи поручено распознавать речевой ввод почти на 100 языках. Впоследствии декодер текста преобразует это значение в различные языки текстового контента, а затем использует модель преобразования текста в единицы, которая декодирует его в дискретные акустические единицы, адаптированные для 36 речевых языков. Благодаря предварительному обучению кодировщика с самоконтролем, компонентов преобразования речи в текст, преобразования текста в текст и модели преобразования текста в единицу качество модели повышается и обеспечивается стабильность ее обучения. Полученные в результате декодированные дискретные единицы затем преобразуются в речь с помощью многоязычного вокодера модуля HiFi-GAN.

Meta AI использует самоконтролируемый речевой кодер, известный как w2v-BERT 2.0 — расширенную версию w2v-BERT, отличающуюся улучшенной стабильностью обучения и качеством представления. Этот кодировщик обучен различать структуру и значение речевых шаблонов, извлекая информацию из огромных объемов многоязычной речи, охватывающей миллионы часов. Функционально кодер разбивает аудиосигнал на более мелкие сегменты, создавая внутреннее представление речевого контента. Учитывая, что разговорный язык состоит из различных звуков и символов, используется адаптер длины для сопоставления этих элементов с соответствующими словами, хотя и приблизительным образом.

Аналогично, Meta AI использует текстовый кодер, основанный на модели NLLB. Этот текстовый кодер обучен воспринимать текстовый контент, охватывающий почти 100 языков, создавая представления, которые оказываются полезными в задачах перевода.

Текстовый декодер Meta AI способен обрабатывать закодированные речевые представления или текстовые представления. Эта возможность используется для задач на одном языке, включая автоматическое распознавание речи и многоязычный перевод. Например, когда говорящий произносит слово «bonjour» на французском языке, автоматически генерируется соответствующий переведенный текст на суахили, «habari». Благодаря многозадачному обучению Meta AI использует возможности надежной модели перевода текста в текст (NLLB) для управления моделью перевода речи в текст посредством дистилляции знаний на уровне токенов.

В контексте производства речи Meta AI использует акустические единицы для представления целевой речи. Компонент преобразования текста в единицы (T2U) в модели UnitY организует создание дискретных речевых единиц на основе текстового вывода. Этот компонент проходит предварительное обучение на данных ASR перед этапом тонкой настройки UnitY. Впоследствии для преобразования этих дискретных единиц в звуковые сигналы используется многоязычный вокодер модуля HiFi-GAN.

Модели, управляемые данными, такие как SeamlessM4T, извлекают значительную выгоду из значительных объемов высококачественных сквозных данных, в частности данных преобразования речи в текст и речи в речь. Однако полагаться исключительно на речевые данные, расшифрованные и переведенные человеком, недостаточно для решения сложностей перевода речи на 100 языков. В ответ Meta AI опирается на свою новаторскую работу в области анализа текста в текст, используя меру сходства в едином пространстве встраивания, наряду с первоначальными исследованиями в области анализа речи, чтобы генерировать дополнительные ресурсы для обучения модели SeamlessM4T.

Результаты

Благодаря уникальной модели SeamlessM4T от Meta AI достигает передовых результатов на впечатляющем спектре почти 100 языков. Это достижение дополняется его многозадачными возможностями, охватывающими функции автоматического распознавания речи, преобразования речи в текст, речи в речь, преобразования текста в речь и перевода текста в текст.

Примечательно, что система расширяет свои возможности, охватывая языки с низким и средним уровнем доступности ресурсов, что значительно повышает их производительность. Это расширение сопровождается неизменным превосходством системы в обеспечении надежных результатов для языков с высокими ресурсами.

В стремлении к точной оценке системы Meta AI представляет расширенную метрику BLASER 2.0, которая выходит за рамки текстовых оценок. Эта усовершенствованная метрика позволяет оценивать как речевые, так и текстовые единицы с точностью, сравнимой с ее предшественником. Благодаря тщательному тестированию на надежность система демонстрирует исключительную устойчивость при выполнении задач преобразования речи в текст. На фоне фоновых шумов и различий в характеристиках динамиков система демонстрирует существенные улучшения — в среднем улучшения составляют 37% и 48% соответственно — превосходя нынешнюю современную модель.

SeamlessM4T, безусловно, является одной из самых интересных базовых моделей перевода речи, когда-либо созданных. Будем надеяться, что мы увидим его интегрированным в мультимодальные усилия Meta AI.