Гибридный искусственный интеллект и машинное обучение: пусть компьютеры говорят друг с другом

Автор Мартин Редди

Искусственный интеллект — это сильно перегруженный термин, который означает разные вещи для разных людей. Как отмечает Бенедикт Эванс, ИИ часто используется для описания кажущегося магическим поведения, которое мы еще не понимаем, но как только мы это делаем, мы просто называем это вычислением. В последние годы зарождающаяся область машинного обучения стала очень популярной и продемонстрировала многообещающие результаты: некоторые считают ее подмножеством ИИ, а другие считают отдельной дисциплиной. Чтобы узнать больше о связанных темах ИИ и машинного обучения, я рекомендую посмотреть Фантастический учебник Фрэнка Чена.

В этой статье я рассказываю о том, как методы искусственного интеллекта и машинного обучения могут быть применены к проблеме общения человека с компьютером.

Два подхода к компьютерному диалогу

В PullString мы разработали обширную технологическую платформу, которая позволяет создавать компьютерные диалоги, с которыми пользователи могут взаимодействовать, печатая или говоря на естественном языке. В основе этой системы лежит диалоговый ИИ-движок.

Эта область ИИ в значительной степени делится на два основных лагеря. Существует традиционный подход к ИИ, основанный на правилах, в котором мы используем сопоставление с образцом, обработку естественного языка и структурированные онтологии для сопоставления ввода пользователя с известным набором ответов. Затем есть машинное обучение, и в частности глубокое обучение, где мы можем использовать множество данных, чтобы выяснить, как сопоставить вводимые пользователем данные с их высокоуровневыми намерениями без явного написания кода для этого. Обе техники имеют свои плюсы и минусы.

Искусственный интеллект на основе правил. В этом подходе вы пишете явные правила, используя синтаксис сопоставления с образцом для моделирования того, что может сказать пользователь. Например, если у вас есть намерение «сложить два числа», вы можете написать такие правила, как «что такое [число] (плюс, и, +) [число]» или «добавьте [число] и [число]». Это означает, что вы должны заранее продумать все способы, которыми пользователь может выразить конкретную концепцию, а затем написать правила для каждого случая. Это может занять довольно много времени, и вам часто приходится разбираться в нюансах конкретного языка сопоставления с образцом, но, с другой стороны, у вас есть полный контроль и точность над тем, как реагирует ваш бот.
Машинное обучение. В этом случае вы собираете большое количество данных от пользователей, которые фактически вводят данные в вашу систему, а затем используете методы машинного обучения для автоматического определения шаблонов. Для намерений машинного обучения это обычно делается путем предоставления набора положительных, а иногда и отрицательных примеров пользовательского ввода. Хотя многие алгоритмы машинного обучения могут работать без присмотра (т. е. они не требуют ручной маркировки данных), чтобы вывести намерения пользователя из примеров входных данных, вам нужно, чтобы человек был в цикле для обновления набора примеров входных данных, когда система отвечает неправильно, а затем переобучить модель. Кроме того, советы, которые вы обычно получаете о том, сколько примеров вы должны привести для намерения, часто неудовлетворительны: дайте их достаточно, чтобы он понял, о чем вы говорите, но не слишком много, иначе он просто будет соответствовать всему. Это проблема зоны Златовласки машинного обучения намерений.

Ознакомьтесь с нашей электронной книгой Создавайте убедительные компьютерные беседы, которая включает в себя подробное пошаговое руководство по развитию персонажа чат-бота, советы по написанию и написанию сценариев, а также рекомендации по написанию для оттачивания ваших навыков.

Сочетание лучшего из обоих миров

В последнее время было много ажиотажа вокруг применения методов машинного обучения к проблемам компьютерного общения, и здесь, в PullString, наша платформа предлагает несколько современных возможностей машинного обучения, которые помогут вам создавать отличные взаимодействия в чате. Например:

Мы берем положительные и отрицательные примеры того, как пользователи формулируют различные намерения (например, «Я хочу заказать пиццу»), и используем эти помеченные данные, чтобы вывести для вас базовые правила или классификаторы, чтобы вам не приходилось писать их самостоятельно. .
Мы предоставляем возможность изучать новые синонимы или связанные понятия, используя неконтролируемые методы машинного обучения на больших массивах журналов чатов, например, автоматически определяя, что «спасибо» является синонимом «спасибо» в текущем разговорном языке чата.
И мы используем методы машинного обучения в наших аналитических предложениях, чтобы выявлять интересные тенденции в том, как ваши пользователи взаимодействуют с вашим контентом, например предлагать новые намерения, которые вы, возможно, не рассматривали.

Однако мы также считаем, что методы, основанные на правилах, также предлагают много важных преимуществ, поскольку они дают вам прямой и точный контроль над тем, как ваши боты реагируют на ваших пользователей. Машинное обучение не идеально в 100% случаев, поэтому важно иметь возможность исправить его, когда вам нужно. В результате мы приняли гибридный подход, чтобы дать вам лучшее из обоих миров: вы всегда можете написать правила, чтобы выразить именно то, что вы хотите, но вы также можете использовать машинное обучение для автоматического обучения и заполнения пробелов, когда это не нужно. не работает.

Преимущества гибридного подхода

Если вы не являетесь крупным технологическим гигантом, у вас, вероятно, нет пользовательских данных, когда вы только начинаете (или у вас могут быть ограничения конфиденциальности, которые ограничивают данные, которые вы можете собирать), поэтому подход, основанный на правилах, может быть вашим лучшим — или, возможно, единственным — вариант. В конце концов, если у вас нет данных, машинное обучение вам не очень поможет. В качестве примера команда Facebook AI Research (FAIR) подсчитала, что им потребуется много миллионов запросов для оптимизации одного намерения бронирования ресторана. В результате вы часто видите стратегию начальной загрузки систем машинного обучения. Например, некоторые компании будут выпускать опыт, в котором настоящие люди отвечают на вопросы за кулисами, пока они не соберут достаточно данных, чтобы начать полагаться на ответы, сгенерированные машиной. Другой подход заключается в том, чтобы платить людям на платформах для микрообработки, таких как Mechanical Turk или CrowdFlower, чтобы они вручную маркировали ваши данные для вас, прежде чем выпустить вашу систему для широкой публики. Однако бывают и ситуации, когда эти подходы нецелесообразны. Например, мы создали опыт в Facebook Messenger для Call of Duty Infinite Warfare: анонс. Это должно было быть разработано за несколько коротких недель и должно было работать всего пару дней. Возможности PullString, основанные на правилах, имели решающее значение для обеспечения этого исключительно увлекательного опыта, в ходе которого за первые 24 часа было совершено впечатляющие 6 миллионов взаимодействий. Мы обнаружили, что вы можете неплохо справиться с написанием собственных правил для намерений. Например, мы обнаружили, что точность правил, разработанных авторами, превышает 80% в нашем опыте Jessie Humani на Facebook и Skype. Однако, как только вы выйдете на рынок и сможете собирать данные от реальных пользователей, вы можете обучить алгоритмы машинного обучения, чтобы довести это число до 90-х.

Передача контроля в творческие руки

Еще одна часть философии PullString в отношении ИИ заключается в том, что мы считаем, что для создания отличных впечатлений с привлекательными личностями требуется рука творческого автора в процессе. Уникальные компании и бренды не хотят шаблонных взаимодействий; они захотят создать голос и личность, которые представляют их бренд и нравятся их клиентам. Поскольку область компьютерных разговоров растет, мы считаем, что существует потребность в инструменте для создания контента Photoshop или Word. Вот почему мы потратили более 50 человеко-лет на инженерные разработки, создавая профессиональную авторскую среду для общения под названием PullString Author: чтобы талантливые нетехнические писатели могли создавать персонажей, личности и сюжетные арки, которые будут резонировать с пользователями.

Эта креативная философия распространяется и на наше использование ИИ. Мы будем использовать машинное обучение, чтобы помочь вам улучшить ваши намерения и дать вам аналитическое представление об опыте ваших пользователей, но мы всегда ставим создателя контента на первое место: если система машинного обучения не делает то, что нужно, вы писатель всегда может создать правило, чтобы исправить это прямо здесь и сейчас. В чистой системе машинного обучения вам просто нужно надеяться, что она в конечном итоге научится правильно после того, как вы предоставите ей еще больше данных. Этот уровень контроля невероятно важен. Мы все видели некоторые вещи, которые могут пойти не так, когда современные алгоритмы машинного обучения остаются для изменения контента или вывода намерений пользователя без модерации человеком. Но также разные бренды могут захотеть настроить язык и тон, которые они понимают и отвечают в ответ — Coke не хочет звучать как Pepsi, а Uber не хочет звучать как Lyft — поэтому добавление автора в цикл позволяет компаниям управлять своим уникальным и специфическим голосом.

Нет никаких сомнений в том, что написание правил для каждого из ваших намерений может быть сложной задачей, поэтому, чтобы упростить использование этой части нашего гибридного предложения, мы поставляем библиотеку намерений по умолчанию с PullString Author, которая охватывает многие общие намерения и синонимы из коробки. . Это касается таких вещей, как ответы «да/нет», общие приветствия, анализ имен или номеров, обнаружение нецензурной брани и так далее. В этом случае мы потратили время на настройку и оттачивание этих намерений и синонимов, чтобы избавить вас от рутинной работы по созданию отличных чат-ботов и диалоговых агентов.

Разговор — это больше, чем понимание намерения

Создание увлекательного разговорного опыта — это гораздо больше, чем просто выяснение намерений пользователя. Поток и частота того, как ваш бот отвечает пользователю, так же важны. Вот почему PullString также фокусируется на предоставлении расширенных возможностей управления диалогами. Контекст важен, поэтому вы можете определять намерения на любой глубине разговора и составлять несколько намерений для выявления более конкретных случаев. Как известно любому комику, время имеет решающее значение, поэтому мы позволяем вам определять временные подсказки и планировать таймеры в вашем контенте. Поскольку беседы не следуют строгим линейным путям, мы поддерживаем междометия, которые могут переключаться на разные темы, и переходы, которые могут возвращать вас к предыдущим темам. Сложный опыт может иметь несколько стадий или уровней, поэтому мы предлагаем концепцию действий, каждое из которых имеет свой собственный диалоговый контекст. Для ответа на общие вопросы требуется доступ к базам знаний, поэтому мы предоставляем функцию веб-сервисов, позволяющую подключаться к внешним API. Ответы персонажей должны быть насыщенными и релевантными, поэтому мы разрешаем множественные ответы в любой момент и предоставляем возможность настраивать ответы в зависимости от среды пользователя. И, несмотря на наше мастерство в общении на естественном языке, мы понимаем, что целенаправленный опыт часто выигрывает от более эффективного взаимодействия, поэтому мы также обеспечиваем интеграцию с карточками, меню и структурированными сообщениями на платформах обмена сообщениями, таких как Facebook, Microsoft и Slack.

Собрав все это воедино, платформа PullString обеспечивает точность сопоставления с образцом и простоту использования машинного обучения; это дает вам профессиональную авторскую среду, которая дает вам полный контроль над вашим опытом; он позволяет быстро начать работу с библиотекой намерений по умолчанию и предоставляет обширную аналитику для понимания ваших данных; и он предлагает сложные функции управления диалогами для поддержки сложных нелинейных ветвлений. Если вы когда-нибудь хотели создавать свои собственные искусственные текстовые или звуковые символы, то теперь у вас есть все возможности!