Прорыв в приложениях на естественном языке с помощью анализа тональности на основе глубокого обучения

Авторы: Тони Тонг и Синь Хэн

Язык, пожалуй, самый фундаментальный инструмент, определяющий человечество. Одно из ключевых открытий Юваль Ной Харари написал в своей книге Sapiens: A Brief History of Mankind [1]: (с развитием языка) мы обретаем способность резко мыслить об абстрактных вещах. , сотрудничать во все большем количестве и, что, возможно, наиболее важно, сплетничать. (подумай об этом на секунду)

Никто не усомнился бы в важности коммуникаций в современном бизнесе, будь то внутри бизнес-организации, или между бизнесом и его клиентами, или наоборот. В частности, многие клиенты ресторанного бизнеса Punchh (https://punchh.com/) получают многочисленные отзывы клиентов в своих приложениях или на онлайн-форумах. Эти обзоры содержат ценные отзывы непосредственно от клиентов, комментирующих многие аспекты бизнеса. Было бы здорово, если бы профессионалы прочитали каждый обзор, но вряд ли это будет масштабируемым, поскольку бизнес растет, а количество обзоров стремительно растет. Однако алгоритмический анализ этих обзоров для понимания их точного значения был труднодостижим с момента изобретения современных компьютеров. Большинство алгоритмов, используемых сегодня, по-прежнему полагаются на маркировку набора предопределенных ключевых слов для внесения предложений, что приводит к снижению производительности, когда эти ключевые слова появляются в более сложных контекстах.

Глубокое обучение делает успехи в понимании естественного языка

«Понимать» человеческий язык сложно, чрезвычайно сложно. Фактически, первоначальный тест Тьюринга в его знаменательной статье 1950 года можно было истолковать как тест на вопрос / ответ, обращенный на человеческом (естественном) языке. На протяжении десятилетий компьютерная лингвистика исследовала все доступные способы анализа естественного языка, такие как теги частей речи (POS), синтаксический анализ зависимостей, распознавание именованных сущностей (NER), графы знаний, логические выводы - и это лишь некоторые из них. Но ни один из этих методов не смог достичь общего уровня производительности, сравнимого с человеческим, даже близко. Затем в центре внимания появилось глубокое обучение ...

Глубокое обучение привлекло внимание общественности с 2012 года, когда произошел значительный прорыв - почти вдвое снизилось количество ошибок прогнозирования при классификации изображений, о которых сообщила не кто иной, как группа профессора Джеффри Хинтона из Университета Торонто. Однако значительные успехи в повышении производительности с помощью глубокого обучения пониманию естественного языка были достигнуты только за последние пару лет.

Открытая платформа для сравнительного анализа под названием Stanford Question Answering Dataset (SQuAD) может дать некоторую полезную информацию. Первоначально SQuAD был опубликован в 2016 году с целью проверки понимания прочитанного машинным путем, задавая естественные вопросы и ожидая естественных ответов от машин, почти так же, как тестирование студентов-людей в тестах GRE или GMAT. В конце 2016 года модели машин получили оценку F1 (обобщенная метрика производительности) на уровне 60 баллов, в то время как средние люди получили 91 балл (чем выше, тем лучше). В конце 2018 года команда искусственного интеллекта Google представила свою модель BERT (представление двунаправленного кодера с использованием трансформаторов), получив оценку F1 93, что превышает средние показатели человека! Позже SQuAD немного изменил свой тест, чтобы немного усложнить его для машин, добавив некоторые хитрые вопросы, на которые невозможно ответить на основе предоставленной информации. Измененная версия называется SQuAD 2.0. В SQuAD 2.0 в конце 2018 года лучшие алгоритмы получили оценку F1 около 86, что ниже средней производительности человека, составляющей 89,45. Шесть месяцев спустя, сегодня лучший алгоритм только что превзошел человеческий тест и получил оценку 89,47 F1. Это поразительная веха!

Беглый взгляд на таблицу лидеров показывает, что все это алгоритмы, основанные на глубоком обучении, за последний год или около того. Фактически, в первую десятку входят все варианты модели BERT с открытым исходным кодом от Google или аналогичных структурных моделей Transformer за последние несколько месяцев! Это само по себе примечательно!

[Таблица лидеров SQuAD 2.0 https://rajpurkar.github.io/SQuAD-explorer/]

Глубокое чувство

Поскольку технологии постепенно совершенствуются, стоит ожидать некоторых фундаментальных сдвигов в бизнесе. Punchh делает именно это, чтобы способствовать внедрению глубокого обучения в повседневные бизнес-приложения. Давайте посмотрим на прототип продукта с глубоким пониманием, который мы создали здесь, чтобы помочь нашим клиентам анализировать отзывы клиентов ресторанов.

Начнем с нескольких примеров:

«Тако в этом ресторане очень вкусное, но обслуживание определенно можно улучшить».

«Самый лучший прожженный конец».

«Сегодня не хватало обслуживания клиентов, обслуживание было медленным, сотрудники выглядели сердитыми, без улыбок, еда была плохой, недостаток в буррито, не хватало бобов и риса, кадьер мог понять или заказать, повторив это ей несколько раз. . сжег мой первый буррито, пришлось выбросить его из-за медленного обслуживания и бла, не обращая внимания. ”

«Впервые попробовал бутерброд со свининой, и он не разочаровал!»

«У нас есть ордер на аллергию, и они пришли поговорить с нами, чтобы убедиться, что у них есть все безопасное и правильное для нас!»

«Кассир был грубо излишен, когда разговаривал с другими коллегами, не обращая внимания на мой заказ»

В этой модели у нас есть оценки настроения в пяти различных категориях: обслуживание клиентов, качество еды, атмосфера, время ожидания и программа приложений. Для каждой категории у нас есть как отрицательное, так и положительное значение настроения в диапазоне от 0 до 1. Значение, близкое к 1, указывает на сильное настроение в такой категории.

Взглянув на несколько примеров выше, мы можем сделать несколько интересных наблюдений:

Это достаточно точно, соответствует нашим человеческим догадкам. Он может правильно определять настроения в разных категориях.
Это контекстно-зависимо. В примере с «выжженными концами» он знает, что относится к пункту меню; а в более позднем примере, где «сожженный» буквально означает «сожженный».
Он терпимо относится к опечаткам или «нестандартному» английскому языку.
В одной категории могут быть как положительные, так и отрицательные настроения.

Многие из вышеперечисленных функций выиграли от базовой модели глубокого обучения. Это не означает, что вы не можете создать набор явных правил для достижения этих уровней производительности. Однако сделать это действительно будет сложной задачей, и ее трудно адаптировать к другому набору ситуаций (подумайте о другом языке).

Модели глубокого обучения относительно просты - никаких конкретных семантических правил не требуется. В нашем случае модель сначала выучила «язык», читая Википедию (да, все страницы!), Затем мы попросили модель выучить наш предметно-ориентированный язык (просто чтобы привыкнуть к жаргонам, опечаткам! И способам выражения людьми свои чувства). После этого мы прикрепляем заголовок классификации и обучаем его с помощью набора данных с пометкой тональности. Вот и все, никаких правил, все извлекается из данных в процессе!

У простоты есть свои достоинства. Он предоставляет более общую платформу, которая может легко адаптироваться к меняющимся потребностям бизнеса или к различным приложениям на естественном языке в целом.

Количественные индексы настроений также позволяют использовать некоторые полезные абстракции более высокого уровня, такие как распределение настроений и отслеживание тенденций.

Например, для определенного периода / местоположения мы можем посмотреть на распределение индексов настроений, а затем интерактивно разрезать и разрезать данные до одного клиента / отзыва.

Мы также можем отслеживать тенденцию. Следующая диаграмма тренда показывает соотношение положительных и отрицательных отзывов для каждой из пяти категорий в реальном времени для фиктивного бизнеса. В этом конкретном случае мы видим, как кажется, нисходящее соотношение положительных и отрицательных результатов в «обслуживании клиентов». Лица, принимающие решения, могут быть заинтересованы в том, чтобы копать дальше, чтобы понять, что вызвало такой дрейф вниз.

Заключение

Глубокое обучение прямо сейчас производит революцию в понимании естественного языка и связанных с ним приложений. Это окажет огромное влияние на наш деловой мир. Что может быть лучше, чем помочь нашим клиентам превратить эту техническую проблему в конкурентное преимущество? Punchh привержен этой миссии.

О Punchh

Punchh со штаб-квартирой в Сан-Матео, Калифорния, является мировым лидером в области инновационных цифровых маркетинговых продуктов для розничных продавцов, сочетающих технологии искусственного интеллекта и машинного обучения, опыт использования мобильных устройств и многоканальные коммуникации, предназначенные для значительного увеличения ценности для клиентов на протяжении всей жизни. Ведущие мировые сети ресторанов, секторов здоровья и красоты полагаются на Punchh для увеличения доходов за счет налаживания отношений с клиентами на всех этапах, от анонимных до известных и приверженцев бренда, в том числе более 100 различных сетей с ежегодными расходами более 12 миллиардов долларов.

Об авторе

Доктор Тони Тонг - штатный специалист по машинному обучению в отделе больших данных и искусственного интеллекта Punchh. Он с энтузиазмом занимается машинным обучением и искусственным интеллектом, любит превращать рабочие модели в полноценные сервисы машинного обучения для бизнес-приложений.

Доктор Синь Хэн является старшим директором, руководителем отдела науки о данных в Punchh, где его основная обязанность - создавать решения мирового класса для обработки данных, способствующие росту наших деловых партнеров. Его команда работает над продуктами AI и BI, а также над инструментами обработки больших данных.

использованная литература

[1] Юваль Ной Харари, Sapiens: Краткая история человечества.

[2] Алекс Крижевский, Илья Суцкевер, Джеффри Хинтон, Классификация ImageNet с глубокими сверточными нейронными сетями, представленные на NIPS 2012.

[3] Стэнфордский набор данных с ответами на вопросы (SQUAD) 2.0 Leaderboard, https://rajpurkar.github.io/SQuAD-explorer/.