Персональные помощники, такие как Alexa и Siri, есть повсюду, но не могут справиться с задачами, более сложными, чем установка будильника или воспроизведение песен на Spotify. ПолиАИ - новый лондонский стартап с платформой нового поколения для создания голосовых агентов. Мы используем машинное обучение для решения сложных задач в различных областях приложений на самых разных языках мира.

Первый телефонный звонок был сделан 10 марта 1876 года. Грэм Белл крикнул своему помощнику: «Мистер Ватсон, иди сюда - я хочу тебя видеть!» Это изменило правила игры. Впервые в истории мы получили удаленное общение в реальном времени, а вместе с ним и возможность удаленно автоматизировать все виды услуг. В его случае г-н Белл мог попросить своего помощника выполнить поручения, даже не видя его лично. Конечно, мистер Белл мог послать письмо, телеграмму или голубя, но это было бы не так быстро и удобно, как взять телефон в руки - это было бы не в реальном времени!

Со временем можно будет дозваниваться до все большего числа предприятий и приобретать услуги удаленно и в режиме реального времени. Однако найти эти услуги было непросто. Решение пришло с помощью «Желтых страниц»: больших печатных каталогов со списком местных предприятий и их телефонных номеров.

После долгого ожидания Всемирная паутина переместила каталог служб из пыльных желтых страниц в изящные и минималистичные поисковые машины. Пользователи могли читать последние новости, книги заказов или даже проверять баланс своего банковского счета, не дожидаясь телефонного оператора на другом конце линии. Однако веб-сайты вынуждали пользователей к структурированному взаимодействию с внутренними системами, вынуждая компании тратить миллионы на дизайн пользовательского интерфейса, чтобы привлечь пользователей к своим услугам. Поскольку не существовало единых стандартов проектирования, пользователям приходилось приспосабливаться к разному интерфейсу для каждой службы вместо того, чтобы использовать только свой голос.

Следующая остановка, смартфоны. Смартфоны с ограниченным пространством экрана ставили новые задачи перед разработчиками программного обеспечения и интерфейсов. Apple, в свою очередь, подала удивительный пример того, как создавать чрезвычайно простые и интуитивно понятные мобильные интерфейсы. Эти принципы получили распространение в готовящемся к выпуску AppStore. Несмотря на обилие доступных приложений, пользователи сами решают, какое приложение загружать, и это не всегда просто. Фактически, большинство владельцев смартфонов в США каждый месяц устанавливают ноль новых приложений.

Вслед за смартфонами поставщики операционных систем теперь предлагают нам виртуальных личных помощников. Последние достижения в области машинного обучения привели к огромным улучшениям в распознавании речи, что позволило таким компаниям, как Google и Amazon, использовать голосовых персональных помощников в каждом доме, телефоне, часах или любом другом оборудовании, оснащенном микрофоном. Вместо того, чтобы адаптироваться к интерфейсам сторонних приложений, помощники абстрагируют их, позволяя пользователям получать доступ к множеству сервисов, используя только свой голос.

Персональные помощники, такие как Siri, Alexa и Google Assistant, стремятся стать де-факто точкой входа для большинства действий, которые пользователи могут захотеть выполнить на своих смартфонах, умных домах и других устройствах с поддержкой помощников. Вместо того, чтобы заставлять пользователей выбирать правильное приложение, персональные помощники обеспечивают естественный канал для доступа к сторонним сервисам. Поскольку они голосовые, они позволяют пользователям полностью обходить графический пользовательский интерфейс. Это особенно удобно для молодого поколения, которое привыкло к смартфонам и другим подключенным устройствам.

От поисковых систем до платформ мобильных ОС, конкуренция между крупными технологическими компаниями вращалась вокруг контроля над платформами, потому что они являются центральной точкой доступа к миллиардам клиентов. Чтобы эти потоки доходов стали реальностью, платформы персональных помощников должны подключаться к сторонним сервисам. Если нет, то помощники тупоголовы, как Google без результатов поиска или iPhone без AppStore. Фактически, Amazon Echo во многом напоминает iPhone примерно 2007 года. Первый сенсорный экран iPhone покорил мир, и точно так же потребители не могут насытиться Echo, самым продаваемым продуктом Amazon за прошлое Рождество.

Поставщикам платформ нужны сторонние приложения для своих личных помощников. Alexa Skills, Actions on Google, Azure Bots… все гиганты пытаются сделать свою платформу лучшей экосистемой для создания вашего голосового приложения. Однако создание диалоговых приложений, которые люди хотят использовать, оказывается очень сложной задачей. Несмотря на десятки тысяч развернутых навыков Alexa Skills, 62% из них не имеют пользовательских оценок, и только четыре имеют более 1000 оценок. Из 16 лучших навыков Alexa 14 воспроизводят окружающие звуки, показывая, что мы все еще далеки от использования сторонних голосовых приложений для решения сложных повседневных задач.

Разговорные приложения не заменят мобильные приложения точно так же, как мобильные приложения не заменили Интернет. Хорошие голосовые приложения просто дополнят существующие интерфейсы для тех сценариев , где использование голоса имеет наибольший смысл. Существующие сервисы по созданию ботов - это только начало.

Такие инструменты, как Dialogflow от Google или Amazon Lex, а также ряд других сторонних инструментов для разработчиков пытались упростить дизайн диалоговых приложений с помощью блок-схем в сочетании с базовыми моделями машинного обучения. Эти инструменты помогают разработчикам вручную создавать поток диалога, обусловливая программируемую реакцию системы на ввод пользователя и предшествующий контекст диалога. Эти инструменты хорошо работают с простыми голосовыми приложениями, например с тем, которое позволяет заказать uberX к вам домой. Однако они больше ничего не могут сделать.

Эти инструменты требуют довольно легкого обучения и хорошо работают в теории. Однако разработчики, как правило, считают, что создание действительно полезного приложения означает, что они должны учитывать определенные пользовательские предпочтения. В примере с Uber это означает понимание того, предпочитает ли пользователь UberX или Uber Black, делает ли он заказ прямо сейчас или через 15 минут и в какой пункт назначения? Выступая, пользователи обычно указывают эти условия в любом порядке, который они считают нужным. Чтобы обрабатывать все изменения пользовательского ввода, блок-схема превращается в нечто такое, что становится чрезвычайно сложно управлять или улучшать в дальнейшем.

Эта парадигма дизайна означает, что разработчикам необходимо указывать ответ для каждого возможного пользовательского ввода и предшествующего ему диалогового контекста. Однако чем сложнее домен, тем больше возможных сценариев. Фактически, количество путей, ведущих к успешному завершению диалога, растет экспоненциально с увеличением сложности предметной области! Это затрудняет (а то и делает невозможным) разработку приложений с голосовым управлением, которые могут справляться с задачами сложнее, чем установка будильника или воспроизведение песен в Spotify.

PolyAI - лондонская технологическая компания, основанная тремя сотрудниками лаборатории из Кембриджа, которые последние четыре года проработали докторскую программу, выясняя, как использовать последние разработки в области машинного обучения, чтобы сделать системы голосового диалога более мощными и более простыми в разработке. .

Мы основали PolyAI, чтобы показать миру, что проектирование систем голосовых диалогов не требует огромного количества ручной работы или уловок, чтобы увести пользователей от сложных вариантов использования. Разрабатывая алгоритмы глубокого обучения, мы позволяем диалоговым агентам научиться интерпретировать то, что хочет пользователь, и как разумно реагировать, не следуя сценарию. Наши алгоритмы обеспечивают такую ​​производительность, которая естественным образом поддерживает несколько языков и доменов приложений. Вот почему мы называемся ПолиАИ!

Наступила эра виртуальных персональных помощников, но еще многое предстоит сделать, прежде чем у нас появится эквивалент AppStore для платформ с поддержкой помощников. Когда Грэм Белл изобрел телефон, он с трудом мог вообразить его трансформационное воздействие. Точно так же трудно сказать, насколько полнофункциональные и естественные голосовые приложения повлияют на нашу жизнь и то, как мы взаимодействуем с технологиями. Если вы хотите поработать над внедрением подходящей машины в разработку голосовых разговорных агентов, свяжитесь с нами!

Особая благодарность Ангусу Бейли, Натану Бенаичу, Мэтту Клиффорду и Эйлин Бербидж за их помощь в этом. Почта! Чтобы узнать больше о PolyAI, следите за обновлениями.