Публикации по теме 'speech-recognition'
pyctcdecode - новый декодер поиска луча для распознавания речи CTC
В Kensho R&D мы разрабатываем инструменты и продукты для приложений в НЛП. Один из наших любимых проектов - Scribe , современная финансовая система распознавания речи, обученная на огромных объемах реальных данных, некоторые из которых мы недавно предоставили академическому сообществу ( здесь ). В рамках этих усилий мы разработали несколько надежных и удобных инструментов, которыми мы с нетерпением ждем возможности поделиться с сообществом специалистов по речи. Сегодня мы рады выпустить..
Проектирование с помощью голосового ИИ
Использование голоса для общения существует с нами около 50 000 лет . Но на протяжении большей части истории вычислительной техники голос как интерфейс был недоступен. Мы выбрали менее подверженные ошибкам способы связи с машинами. Мы наблюдаем эти изменения медленно с 1950-х годов, когда были разработаны первые системы распознавания речи для распознавания числовых цифр . В классическом рассказе о предварительном типировании IBM протестировала установку Wizard-of-Ozzed для..
Голландец, врач и компьютер заходят в бар
Речь — это одна из вещей, которые мы считаем глубоко человеческими: большая часть нашего взаимодействия основана на ней. Поэтому неудивительно, что мы, люди, пытаемся научить других говорить — будь то животные или машины.
Я взял интервью у Питера Смита, докторанта Центра передового опыта в области вычислительного вывода Университета Аалто, чтобы узнать, что происходит в области распознавания речи.
«Речь — более естественный интерфейс, чем набор текста», — резюмирует Питер. У него..
Преобразование речи в текст - Nodejs
Всем привет ,
Я расскажу вам, как преобразовать Audio / Speech / .mp3 и другие аудиофайлы в текстовый формат.
Я буду использовать Nodejs, Bluemix (IBM Cloud Plateform). Итак, приступим.
Вы должны выполнить следующие шаги к тому же:
Шаг 1. Зарегистрируйтесь в Bluemix (IBM Cloud Plateform).
Шаг 2. Войдите в Bluemix.
Шаг 3. Создайте сервис преобразования речи в текст. И получите имя пользователя и пароль для преобразования речи в текст. Ссылка: создание сервиса преобразования..
Автоматическое распознавание речи с индийским акцентом
Лучшая альтернатива Google Speech Recognition API с открытым исходным кодом - теперь для второй по величине англоязычной страны!
Одна из первых попыток заставить компьютеры распознавать речь была сосредоточена на распознавании чисел! Лаборатории Белла в 1952 году разработали Систему Одри , которая могла распознавать единый голос, говорящий по цифрам. С тех пор было проведено множество других экспериментов, которые хорошо документированы в этой статье в Википедии. Перенесемся на..
Создание голосового помощника для игр (учебник по FIFA)
Играйте в игры с голосовыми командами, используя движок обнаружения пробуждающих слов на базе Deep Learning.
Голосовые помощники, такие как Amazon Alexa и Google Home, стали широко популярными для автоматизации и упрощения выполнения рутинных повседневных задач. Они позволяют пользователям быстро выполнять задачи, используя свой голос, без необходимости многократно взаимодействовать со своими телефонами или компьютерами.
Их рост популярности и недавнее широкое распространение не в..
Ближайшие месяцы
«мы превращаем кофе в код»
Привет всем там,
The Coming Months будет еженедельным обновлением моей работы в рамках Google Summer of Code 2016 . Так что для тех, кто интересуется чудесами и мощью компьютеров, присоединяйтесь ко мне в ближайшие несколько месяцев, когда я расскажу о некоторых ключевых моментах моей мечты. А для тех, кому нужно вдохновение, я постараюсь вас развлечь. :/ ;)
Google Summer of Code стал моей мечтой с середины 2014 года. Программирование было неотъемлемой..