Публикации по тегам speech-recognition

Публикации по теме 'speech-recognition'

pyctcdecode - новый декодер поиска луча для распознавания речи CTC

В Kensho R&D мы разрабатываем инструменты и продукты для приложений в НЛП. Один из наших любимых проектов - Scribe , современная финансовая система распознавания речи, обученная на огромных объемах реальных данных, некоторые из которых мы недавно предоставили академическому сообществу ( здесь ). В рамках этих усилий мы разработали несколько надежных и удобных инструментов, которыми мы с нетерпением ждем возможности поделиться с сообществом специалистов по речи. Сегодня мы рады выпустить..

Проектирование с помощью голосового ИИ

Использование голоса для общения существует с нами около 50 000 лет . Но на протяжении большей части истории вычислительной техники голос как интерфейс был недоступен. Мы выбрали менее подверженные ошибкам способы связи с машинами. Мы наблюдаем эти изменения медленно с 1950-х годов, когда были разработаны первые системы распознавания речи для распознавания числовых цифр . В классическом рассказе о предварительном типировании IBM протестировала установку Wizard-of-Ozzed для..

Голландец, врач и компьютер заходят в бар

Речь — это одна из вещей, которые мы считаем глубоко человеческими: большая часть нашего взаимодействия основана на ней. Поэтому неудивительно, что мы, люди, пытаемся научить других говорить — будь то животные или машины. Я взял интервью у Питера Смита, докторанта Центра передового опыта в области вычислительного вывода Университета Аалто, чтобы узнать, что происходит в области распознавания речи. «Речь — более естественный интерфейс, чем набор текста», — резюмирует Питер. У него..

Преобразование речи в текст - Nodejs

Всем привет , Я расскажу вам, как преобразовать Audio / Speech / .mp3 и другие аудиофайлы в текстовый формат. Я буду использовать Nodejs, Bluemix (IBM Cloud Plateform). Итак, приступим. Вы должны выполнить следующие шаги к тому же: Шаг 1. Зарегистрируйтесь в Bluemix (IBM Cloud Plateform). Шаг 2. Войдите в Bluemix. Шаг 3. Создайте сервис преобразования речи в текст. И получите имя пользователя и пароль для преобразования речи в текст. Ссылка: создание сервиса преобразования..

Автоматическое распознавание речи с индийским акцентом

Лучшая альтернатива Google Speech Recognition API с открытым исходным кодом - теперь для второй по величине англоязычной страны! Одна из первых попыток заставить компьютеры распознавать речь была сосредоточена на распознавании чисел! Лаборатории Белла в 1952 году разработали Систему Одри , которая могла распознавать единый голос, говорящий по цифрам. С тех пор было проведено множество других экспериментов, которые хорошо документированы в этой статье в Википедии. Перенесемся на..

Создание голосового помощника для игр (учебник по FIFA)

Играйте в игры с голосовыми командами, используя движок обнаружения пробуждающих слов на базе Deep Learning. Голосовые помощники, такие как Amazon Alexa и Google Home, стали широко популярными для автоматизации и упрощения выполнения рутинных повседневных задач. Они позволяют пользователям быстро выполнять задачи, используя свой голос, без необходимости многократно взаимодействовать со своими телефонами или компьютерами. Их рост популярности и недавнее широкое распространение не в..

Ближайшие месяцы

«мы превращаем кофе в код» Привет всем там, The Coming Months будет еженедельным обновлением моей работы в рамках Google Summer of Code 2016 . Так что для тех, кто интересуется чудесами и мощью компьютеров, присоединяйтесь ко мне в ближайшие несколько месяцев, когда я расскажу о некоторых ключевых моментах моей мечты. А для тех, кому нужно вдохновение, я постараюсь вас развлечь. :/ ;) Google Summer of Code стал моей мечтой с середины 2014 года. Программирование было неотъемлемой..