После альфа-выпуска Gladia Speech-to-Text AI две недели назад мы получили десятки запросов на новые функции от пользователей альфа-версии, чтобы сделать наш основной API транскрипции аудио в реальном времени еще более захватывающим и универсальным.
Мы услышали вас и рады сообщить, что API становится все более надежным с каждой минутой и теперь доступен с большими возможностями — помимо его невероятной скорости и высочайшего качества вывода.
Мы невероятно рады создавать наш продукт Audio Intelligence под руководством сообщества, предоставляя целостный конечный продукт, адаптированный к многочисленным потребностям и вариантам использования, доведенным до нашего сведения.
Вот что у нас уже есть в магазине
Транскрипция речи в текст (STT)
Устанавливая новый стандарт для отрасли, наш STT API основан на OpenAI Whisper и может транскрибировать аудио со скоростью 10 с/ч при 3,52% WER. Протестировано и одобрено тысячами альфа-пользователей в различных вариантах использования (например, колл-центр, виртуальные встречи, видео на YouTube, подкасты).
Преобразование речи в текст
Загрузите свой файл, выберите язык вывода по вашему выбору и наслаждайтесь окончательным переведенным расшифровкой без ошибок. В настоящее время доступно на 99 языках, и их число продолжает расти. Если ваш язык еще не поддерживается, напишите нам в этой теме Твиттера.
Транскрипция с URL-адреса YouTube
Отбросьте URL-адрес видео и наслаждайтесь высокоточным выходным файлом (.srt или JSON), который можно использовать в качестве альтернативы автоматическим субтитрам YouTube, чтобы улучшить впечатление зрителей от вашего канала. Транскрипция в виде файла субтитров (.srt) также скоро станет доступна.
А вот список новых наиболее ожидаемых функций, которые мы планируем выпустить в марте.
Диаризация спикера
Теперь вы сможете автоматически идентифицировать и распознавать всех говорящих, смешанных в одном аудио- или видеопотоке, в том числе при использовании нескольких языков.
Отметка времени на уровне слова
Функция, позволяющая пользователям Gladia создавать высокоточные стенограммы JSON с отметками времени для каждого слова.
Транскрипция в прямом эфире
Мы добавляем возможность транскрибировать речь в режиме реального времени с помощью микрофона.
—
Мы готовим серию подробных обзоров некоторых из этих новых функций, чтобы продемонстрировать, как наша технология работает за кулисами. Следите за обновлениями!
Как всегда, не стесняйтесь тестировать API и оставлять свои отзывы в Slack или Discord. Мы действительно любим повторять с сообществом.
🗝 Для тех, кто еще не зарегистрировался на альфу, запросите бесплатный доступ на gladia.io.