OpenAI, та же самая компания, которая запустила DALL-E для создания изображений из текста, недавно создала модель глубокого обучения, которая способна расшифровывать голоса практически на любом языке, независимо от того, насколько быстро человек говорит или насколько они смешивают слова из других языков. Это революционное достижение в распознавании речи является следствием использования огромных объемов данных в сочетании с новейшими моделями искусственного интеллекта в широко изученной области на стыке обработки сигналов и НЛП.

В основе этой модели, названной ее создателями Whisper, по сути лежит довольно стандартная глубокая нейронная сеть, известная как Трансформатор, архитектура, широко применяемая в НЛП, а в последнее время и в Компьютерном зрении. ». Новизна заключается не в самом методе, а в том, как его фактически обучали, используя 680 000 часов расшифрованного аудио, собранного из Интернета. Ага, более 77 лет аннотированного звука, разделенного на куски по 30 секунд и переданного в нейросеть для обучения выполнению задания. Аккуратно, верно?

Этот массивный набор данных был создан путем извлечения нескольких веб-сайтов с расшифрованными голосами тысяч говорящих на 99 различных языках. Хотя некоторые из этих частей были расшифрованы людьми вручную (например, субтитры в фильмах или видео на YouTube), большая их часть была автоматически создана другими менее точными автоматизированными моделями. Чтобы не путать Whisper с этими примерами, OpenAI разработала автоматизированный метод, который отбрасывает их, сохраняя при этом образцы, в которых используются правильные знаки препинания и заглавные буквы. В результате набор данных был достаточно чистым, чтобы сеть выдавала надлежащие результаты, воспроизводя способность человека расшифровывать текст и превосходя по точности другие гораздо более сложные и менее удобные архитектуры.

Чтобы еще больше повысить производительность Whisper, специалисты по данным использовали многозадачное обучение — дисциплину машинного обучения, в которой модели одновременно обучаются выполнять более одной задачи одновременно. Хотя это может показаться нелогичным, обучающие модели позволяют им использовать и обнаруживать общие закономерности между задачами, повышая их общую точность. В данном случае OpenAI обучил Whisper одновременно преобразовывать звук в текст, переводить вывод на английский язык, распознавать язык ввода и определять, говорит кто-то или нет. Такой комбинированный подход позволил сети сопоставить или даже превзойти людей при распознавании речи в нескольких наборах эталонных данных.

И последнее, но не менее важное: OpenAI внесла большой вклад в сообщество, публично и бесплатно выпустив как код Whisper, так и предварительно обученные модели. Это прокладывает путь к множеству реальных приложений, от помощи производителям контента в автоматическом субтитрировании их видео до предоставления помощникам с голосовым управлением более интеллектуальных действий при получении команд от людей. Кроме того, Whisper можно использовать для создания многих более совершенные модели искусственного интеллекта, например, за счет сбора гораздо больших объемов текста путем массовой расшифровки видео на YouTube.

Какие еще приложения для таких моделей распознавания речи, как Whisper, вы предполагаете? Вы уже рассматриваете возможность использования этой технологии в своем бизнесе? Свяжитесь с нами в Arionkoder, чтобы мы могли помочь вам достичь этого!

Первоначально опубликовано на https://blog.arionkoder.com 18 ноября 2022 г.