Дорожная карта на март 2023 г.: диаризация говорящего, отметка времени на уровне слов и многое другое

После альфа-выпуска Gladia Speech-to-Text AI две недели назад мы получили десятки запросов на новые функции от пользователей альфа-версии, чтобы сделать наш основной API транскрипции аудио в реальном времени еще более захватывающим и универсальным.

Мы услышали вас и рады сообщить, что API становится все более надежным с каждой минутой и теперь доступен с большими возможностями — помимо его невероятной скорости и высочайшего качества вывода.

Мы невероятно рады создавать наш продукт Audio Intelligence под руководством сообщества, предоставляя целостный конечный продукт, адаптированный к многочисленным потребностям и вариантам использования, доведенным до нашего сведения.

Вот что у нас уже есть в магазине

Транскрипция речи в текст (STT)

Устанавливая новый стандарт для отрасли, наш STT API основан на OpenAI Whisper и может транскрибировать аудио со скоростью 10 с/ч при 3,52% WER. Протестировано и одобрено тысячами альфа-пользователей в различных вариантах использования (например, колл-центр, виртуальные встречи, видео на YouTube, подкасты).

Преобразование речи в текст

Загрузите свой файл, выберите язык вывода по вашему выбору и наслаждайтесь окончательным переведенным расшифровкой без ошибок. В настоящее время доступно на 99 языках, и их число продолжает расти. Если ваш язык еще не поддерживается, напишите нам в этой теме Твиттера.

Транскрипция с URL-адреса YouTube

Отбросьте URL-адрес видео и наслаждайтесь высокоточным выходным файлом (.srt или JSON), который можно использовать в качестве альтернативы автоматическим субтитрам YouTube, чтобы улучшить впечатление зрителей от вашего канала. Транскрипция в виде файла субтитров (.srt) также скоро станет доступна.

А вот список новых наиболее ожидаемых функций, которые мы планируем выпустить в марте.

Диаризация спикера

Теперь вы сможете автоматически идентифицировать и распознавать всех говорящих, смешанных в одном аудио- или видеопотоке, в том числе при использовании нескольких языков.

Отметка времени на уровне слова

Функция, позволяющая пользователям Gladia создавать высокоточные стенограммы JSON с отметками времени для каждого слова.

Транскрипция в прямом эфире

Мы добавляем возможность транскрибировать речь в режиме реального времени с помощью микрофона.

—

Мы готовим серию подробных обзоров некоторых из этих новых функций, чтобы продемонстрировать, как наша технология работает за кулисами. Следите за обновлениями!

Как всегда, не стесняйтесь тестировать API и оставлять свои отзывы в Slack или Discord. Мы действительно любим повторять с сообществом.

🗝 Для тех, кто еще не зарегистрировался на альфу, запросите бесплатный доступ на gladia.io.