Речевые технологии в Alibaba

Разговаривайте со своим телевизором, разговаривайте с автоматами по продаже билетов и т. д.

Alibaba развернула технологии искусственного интеллекта, например, речевые технологии, обработку естественного языка (NLP), видеотехнологии, технологии обработки изображений и машинное обучение) и т. д., в широком спектре приложений в электронной коммерции, финансовых услугах, новом производстве и новой розничной торговле. В различных сценариях, связанных с корпоративными приложениями, Alibaba накопила обширные знания, полученные из больших данных в Интернете, что сделало ее мировым лидером в области приложений ИИ.

В речевых технологиях

Поговорите со своим телевизором:

Поговорите с автоматами по продаже билетов:

Вакансии в команде речевых технологий Alibaba:

https://speech.alibaba-inc.com/icassp2018/jobs

Публикация:

Speaking Up: Оптимизация систем распознавания речи с большим словарным запасом

Глубокие нейронные сети стали доминирующей акустической моделью, используемой в системах распознавания непрерывной речи с большим словарным запасом (LVCSR). Нейронные сети включают в себя как нейронные сети с прямой связью (FNN), так и рекуррентные нейронные сети (RNN). Хотя было показано, что RNN значительно превосходят FNN, возможности обучения RNN обычно зависят от обратного распространения во времени (BPTT) из-за внутренних повторяющихся циклов. Это значительно увеличивает вычислительную сложность обучения, а также может вызвать такие проблемы, как исчезновение и взрыв градиента.

Улучшенное моделирование временной зависимости при распознавании эмоций: расширенный LSTM

Уровни долговременной кратковременной памяти (LSTM) являются строительными блоками рекуррентных нейронных сетей (RNN) и используются для облегчения применения RNN в задачах последовательного моделирования, таких как машинный перевод. Из-за входных данных уровня уровень LSTM предполагает, что состояние его текущего уровня (хранящееся в ячейке памяти) зависит от состояния того же уровня в предыдущий момент времени. Эта одношаговая временная зависимость ограничивает возможности моделирования временной информации и представляет собой основное ограничение слоев LSTM в RNN.

В поисках слов: синтез речи с ограниченными данными с использованием линейных сетей

Акустические модели, зависящие от говорящего, гарантируют, что системы синтеза речи будут давать точные результаты. При достаточном количестве обучающих данных от целевых говорящих системы синтеза речи могут генерировать результаты, аналогичные целевому говорящему. Однако получение достаточного количества данных от целевых говорящих всегда является ограничением.

Ансамбль системы распознавания эмоций по голосу

Важность распознавания эмоций приобретает все большее значение с улучшением пользовательского опыта и использованием человеко-компьютерных интерфейсов (HCI). Разработка систем распознавания эмоций, основанных на речи, а не на выражении лица, имеет практические преимущества благодаря низким требованиям к оборудованию. Однако эти преимущества несколько сводятся на нет фоновым шумом в реальном мире, который снижает эффективность распознавания эмоций на основе речи, когда система используется в практических приложениях.

Чтение вслух: последовательная память для синтеза речи

Системы преобразования текста в речь (TTS) являются неотъемлемой частью взаимодействия человека с компьютером. Для современных устройств Интернета вещей (IoT), таких как интеллектуальные колонки и интеллектуальные телевизоры, речь является наиболее эффективным и доступным способом для пользователя и устройства понять друг друга с помощью инструкций и обратной связи. Однако одна проблема, которая обычно затрудняет взаимодействие с пользователем, заключается в том, что сгенерированная машиной речь воспринимается пользователями как неестественная или нечеловеческая. Преодоление этого препятствия на сегодняшний день является серьезной проблемой для систем TTS.

Алибаба Тех

Подробная информация о новейших технологиях Alibaba из первых рук → Найдите «Alibaba Tech» на Facebook.