«Ключ к будущему технологии естественного языка — всего одно слово — естественный».

В последний день ноября доктор Ю Кай, главный научный сотрудник и соучредитель AISpeech, сделал этот комментарий на седьмом занятии Клуба изучения искусственного интеллекта, спонсируемого X-lab Цинхуа. Он выступал перед аудиторией с речью о будущем потенциале обработки естественного языка (NLP).

В своей лекции «Интеллект в когнитивных вербальных диалогах» Ю Кай упоминает, что самой большой проблемой в когнитивных взаимодействиях является не речь, поскольку это четко определенная проблема с точки зрения распознавания речи, и большинство программ, разработанных для этой цели, работают исключительно хорошо.

Изображение 1. 30 ноября соучредитель AISpeech Ю Кай читает лекцию под названием «Интеллект в когнитивных вербальных диалогах» в Цинхуа. Фото: Лю Хань

Он считает, что более сложной задачей является процесс диалога. Например, в терапии больных депрессией вербальные диалоги больше похожи на целенаправленные беседы. Без сильной математической подготовки участникам будет очень сложно продолжить разговор. Только накопление большего количества данных в вертикальном поле может помочь в улучшении разговора.

Ниже приводится стенограмма лекции доктора Ю Кая; мы немного отредактировали его для ясности и краткости.

Переход от распознавания голоса к голосовому взаимодействию

Сегодня я хочу поговорить о диалогах когнитивного интеллекта, рабочее слово — «диалог». Это слово относится не только к речи, но и к самому языку. За восемь лет работы в Цинхуа, где я изучал взаимодействие человека и машины, мы претерпели несколько изменений в способах взаимодействия людей и машин.

Почему мы стали обращать внимание на интеллект в вербальных диалогах?

Первое, что мы обсудим сегодня, это то, почему мы стали обращать внимание на интеллект в вербальных диалогах.

Вначале у нас был графический пользовательский интерфейс Windows для взаимодействия между людьми и информацией. В то время мы были поражены, увидев аккуратно распечатанную информацию. Затем, начиная с 2011 года, все большее распространение получили смартфоны, которые произошли от сотовых телефонов. Двигаясь дальше, мы постепенно начали взаимодействовать с машинами, используя обработку естественного языка, текстового или вербального. Со временем мы поняли, что вербальная коммуникация должна стать основой умного получения информации в будущем. В эпоху мобильного Интернета появился новый способ общения, наиболее важная часть ответа — голосовое взаимодействие.

Изображение 2. Лекторий. Фото: Лю Хань

До начала этого тысячелетия, когда только появились поисковые системы вроде Google или Baidu, взаимодействие было односторонним. Однако с появлением смартфонов взаимодействие стало двусторонним. Например, первое поколение iPhone не поддерживало голосовое взаимодействие, но затем исследование рынка показало, что 75% пользователей хотели иметь функции голосового управления. Поэтому следующие два поколения добавили голосовое управление. Однако компания была удивлена, узнав, что этой функцией пользуются менее 5% людей. Apple пришла к выводу, что их пользователям нужно больше, чем голосовое управление — им нужно общение на естественном языке. Следовательно, Apple запустила Siri с iPhone 4S. Последующее исследование рынка показало, что около 87% пользователей взаимодействовали с Siri хотя бы раз в месяц.

Однако они также обнаружили, что эти пользователи iPhone большую часть времени дразнили Siri ради развлечения или любопытства, а не пытались сделать что-то полезное. В результате Apple не смогла извлечь выгоду из этого изобретения. Это вынудило Apple приобрести VocalIQ, компанию, которая специализировалась на сборе статистики диалоговых взаимодействий, в 2015 году. Это приобретение дало Apple возможность сформировать замкнутый цикл, который объединил техническое распознавание речи и семантику, а также улучшил Siri со всеми новыми функциями.

Изображение 3. Лекторий. Фото: Лю Хань

Мы все говорим об эпохе Интернета, но насколько продвинулись вперед информационные системы?

Глядя на статистику, в конце 2017 года количество интеллектуальных устройств IoT во всем мире впервые превысило численность населения. Однако подавляющее большинство этих устройств имеют крошечные экраны или вообще не имеют экранов, и пользователи не могут выполнять на них сложные операции. Это означает, что для доступа к сложной абстрактной информации пользователи могут взаимодействовать с такими устройствами только вслух или посредством диалога. Вот почему, начиная с 2014 года, многие технологические гиганты начали выпускать умные колонки. С технологической точки зрения это требует большего, чем решение или технологическая структура. Это также включает управление диалогом, распознавание, синтез и наше понимание.

Проблемы и возможности системы естественного голосового взаимодействия

Каковы основные проблемы и есть ли возможности?

Во-первых, это распознавание речи. Распознавание речи — это передовая технология восприятия, и большинство людей уже знают о ее применении. Компании и исследователи уже решили основные проблемы распознавания речи. Если я использую комплексную систему распознавания речи, у нее не возникнет проблем с распознаванием большей части того, что я говорю, даже стихов. Однако, даже если мы используем технологию глубокого обучения, мы не можем избежать случайных ошибок распознавания речи. Наша задача — сделать программу более человечной, чтобы в случае ошибки она могла исправить себя в контексте полного взаимодействия человека с машиной. Для этого требуется взаимопомощь восприятия и когнитивных технологий.

Во-вторых, вычислительная мощность. Решения для распознавания речи зависят от вычислительной мощности. Чтобы привести пример, в только что выполненной демонстрации демонстрационное приложение использовало глубокую нейронную сеть с семью слоями по 2048 узлов в каждом, 1320 входными данными, почти 10000 выходными данными и в общей сложности около 45 миллионов параметров. При распознавании речи мы разрезаем каждую секунду речи на 100 частей и из каждой части извлекаем 1320 векторов. Теперь представьте, что я вычисляю собственный вектор в нейронной сети 100 раз в секунду, а затем мне нужно найти его в поисковой сети из сотен миллионов узлов. Как видите, эта операция невероятно сложна. Статистика показывает, что если мы разделим процесс распознавания речи на скорость поиска и скорость прямой передачи нейронной сети, то в традиционных системах скорость прямой передачи составит от 30% до 40%. Общая скорость поиска в различных языковых пространствах будет составлять от 60% до 70%. Поэтому на техническом уровне нам нужно решить проблему скорости.

Изображение 4. Вопросы аудитории. Фото: Лю Хань

Еще одна проблема, связанная с интеллектом восприятия, заключается в том, как сделать его более легким. Общие изменения и достижения в области информационных технологий, несомненно, связаны с достижениями в области базовых технологий. Мы постоянно сталкиваемся с новыми проблемами, например, можем ли мы повысить эффективность шумоподавления до 90% или использовать большие словари на мобильных телефонах и часах. По мере того, как мы вносим различные улучшения в технологию IoT, мы можем начать преодолевать эти проблемы одну за другой.

Делаем взаимодействие естественным через познание

Познание — самый неприятный аспект. Диалог между человеком и машиной не так прост, как кажется большинству людей, потому что существует много форм диалога, некоторые из которых технология может реализовать более эффективно, чем другие. Если бы мы сортировали диалоги по количеству раундов, мы могли бы разделить их на несколько категорий. Во-первых, самой короткой диалоговой формой будет один раунд. Например, я произносил предложение, а машина отвечала фразой без особой структурной семантики. Это диалоговое окно командного типа, и оно очень простое. Более сложной формой диалога является «вопрос-ответ». В настоящее время многие системы полагаются на традиционные технологии глубокого обучения для решения проблем с диалогами «вопрос-ответ». Потому что структура такого диалога обычно состоит из одного вопроса, а затем одного ответа, только с случайным контекстом; это недопустимый диалог с несколькими раундами.

Еще одна категория — чаты, то есть если вы не перестанете говорить, машина продолжит с вами общаться. Microsoft XiaoIce является примером диалогового окна чата такого типа. Время чата определяет правила чата. Пользователь может общаться в течение нескольких часов, и разговор будет продолжаться. Тем не менее, в этом чате нет определенной цели, поэтому главное, о чем нужно подумать, это как добавить интересные вещи в разговор.

Однако, если у пользователя есть цель в чате, машина не сможет ее понять; тем не менее, он будет продолжать общаться, пока пользователь зависает. Мы характеризуем чат несколькими раундами взаимодействия без какой-либо структуры. Машина может иногда добавлять некоторые информационные элементы, которые исследователи надеются интегрировать в машину, но взаимодействие в основном неструктурировано. Таким образом, такие функции, как общение в чате, на самом деле больше связаны с интеграцией некоторых интересных элементов в машину. Честно говоря, у нас до сих пор нет устойчивой теоретической системы диалогов такого типа, которая помогла бы решать связанные с ними проблемы на теоретическом уровне.

Последний тип диалога — многораундовый диалог, ориентированный на задачу. У нас есть прочная математическая основа для этого типа диалога, которая позволяет нам рассматривать его как последовательность процессов принятия решений.

Одна технология, три уровня

Глядя на уровень познания, мы можем разделить когнитивную технологию на три уровня.
Первый — это статический уровень. Это определяет, может ли программа понять естественный язык случайного оператора и сопоставить его с правильным значением.

Второй уровень – интерактивное принятие решений. Это определяет, как программа будет реагировать на разговор. Например, если я говорю, что ищу ресторан, программа должна понять, куда я хочу пойти и что я хочу поесть.

Третий уровень — эволюция. Если программа думает, что я хочу что-то дорогое, тогда как на самом деле я хочу что-то дешевое, она должна быть в состоянии распознать свою ошибку и обновить свою стратегию реагирования в будущем, чтобы ее когнитивные способности развивались.

Разговор о том, что вас беспокоит: крупномасштабный настраиваемый разговорный интеллект. Глядя на разговорный интеллект в целом, мы увидим, что каждый сценарий на протяжении всего процесса может показаться отличным, но все меняется, когда дело доходит до профессиональных сценариев. Например, в диалоговом режиме сценарии покупок отличаются от финансовых или домашних сценариев в отношении информации, которую система должна понимать. Это означает, что мы должны проверить, может ли диалоговая модель распознавать и поддерживать каждый сценарий.

С точки зрения деталей существует множество индивидуальных требований, таких как звонки для пробуждения. Например, если мы говорим «Алекса, включи песню», имя «Алекса» — это тревожный звонок. Однако иногда мы можем захотеть дать машине имя. В будущем таких требований к персонализации, как использование персонализированных слов пробуждения, будет больше.

Мы надеемся, что наша система вербального диалога будет поддерживать настройку. Более того, крупномасштабная настройка — это новая концепция, которую мы предложили первой. В 2013 году мы запустили платформу «Мастерская диалогов». В 2017 году мы обновили эту платформу до «Диалогового пользовательского интерфейса (DUI)», который отличается широкими возможностями настройки. По сути, он интегрирует графический интерфейс и речевой интерфейс в интерактивную диалоговую структуру.

Что может сделать пользовательская технология голосового взаимодействия?

Теперь вам должно быть любопытно. Что делает эта технология настройки? Например, при разработке технологий распознавания речи в реальном времени и распознавания речи с большим словарем мы можем создать функцию, которая при семантических изменениях включает автоматическое распознавание речи слов. Например, если мы добавим имя кинозвезды, скажем, «Николь Кидман», система сможет автоматически добавить его в список слов и распознать как имя актрисы для последующего понимания и взаимодействия.

Другой пример — проект, который мы планируем реализовать. Мы хотим создать бортовую систему автомобиля, которая может автоматически добавлять и использовать разные голоса. Если мы предпочитаем слушать сладкий голос Кэти Перри для навигации, нам просто нужно сказать «Кэти Перри». Система не будет по ошибке говорить хриплым голосом Майкла Кейна. Если мы скажем системе вернуться к предыдущему голосу, она переключится обратно на тот, который использовался раньше. Мы надеемся, что машина будет способна быстро переключаться вперед и назад. Идя дальше, мы хотим поддерживать настройку функций, связанных с пониманием и диалогом.

В этом процессе вспомогательная технология выходит за рамки традиционного голосового или диалогового взаимодействия и независимого восприятия и когнитивной структуры, о которых мы упоминали ранее. В этот момент нам понадобятся новые технологии, поддерживающие широкомасштабную настройку. Например, что касается узнавания, нам нужно решить задачу самоадаптации.

Чтобы быть более конкретным, машина, которая может самоадаптироваться к говорящему и сценарию или конкретному предмету и вовремя вносить коррективы, чтобы обеспечить большую самоадаптацию диалогов. Мы не можем добиться такой самоадаптации в больших масштабах без поддержки связанных систем. В этом путешествии нам нужно заимствовать определенные технологии и настраивать модели, чтобы масштабировать и продвигаться вперед за счет функций персонализации. В этой области появится много новых технологий, но ни одна из них не может существовать без поддержки технической инфраструктуры.

Вы можете прочитать похожие статьи и узнать больше о продуктах и ​​решениях Alibaba Cloud на странице www.alibabacloud.com/blog.

Ссылка:

https://www.alibabacloud.com/blog/interview-with-dr--yu-kai-of-aispeech-%E2%80%93-the-importance-of-naturalness-in-natural-language-processing_593838 ?spm=a2c41.11803476.0.0