Прагматика в курьере

Когда мы начали работать над сумматором диалоговой электронной почты Courier, мы знали, что просто использовать метод извлекающего резюмирования недостаточно. В Codeq мы понимаем, что способ, которым люди конструируют дискурс для передачи смысла, очень сложен, потому что существует несколько уровней языковых явлений, которые взаимодействуют трансверсально.

Вычислительное моделирование морфологии и синтаксиса языка, даже несмотря на то, что они далеки от «решения», является хорошо изученным и понятным явлением в обработке естественного языка (НЛП). Вычислительная распределительная лексическая и композиционная семантика - это области исследований, которым в последнее время уделяется больше внимания с момента популяризации вложения слов как инструмента для улавливания языкового значения.

Однако вычислительная прагматика - это область НЛП, которая до сих пор малоизучена.

Но что такое прагматика? Перефразируя ван Дейка (2009), можно сказать, что прагматика - это плохо интегрированная область лингвистических исследований, которая «занимается использованием языка в социальных контекстах» (Nordquist, 2017).

С прагматической точки зрения передача значения является многогранным явлением, которое «зависит не только от структурных и лингвистических знаний […], но также и от контекста [каждого] высказывания». (Авторы Википедии, 2017 г.)

В Courier мы реализовали модули, моделирующие прагматику разговорной электронной почты на многих уровнях. Хотя реализация всех этих разнообразных моделей далека от всестороннего прагматического анализа, она помогла нам лучше понять содержание электронных писем и коммуникативные намерения их отправителей.

Связность дискурса

С самого первого дня в Codeq мы знали, что «текстовая согласованность» является ключевой для создания коротких резюме, которые все еще сохраняют «концептуальные отношения, которые используют понимающие для построения связного мысленного представления, приспособленного к тому, что говорится в дискурсе». (Louwerse & Graesser, 2005: 217).

Модуль резюмирования разговорной электронной почты Courier использует двухэтапную гибридную стратегию:

1) Уровень машинного обучения (ML), который ранжирует предложения, содержащиеся в электронных письмах, по важности. Среди других факторов этот уровень машинного обучения использует информацию, извлеченную модулем моделирования дискурса, который находит явные дискурсивные отношения между предложениями, то есть отношения, выраженные с использованием явных маркеров дискурса, таких как «например», «дополнительно», «поэтому», и т.п.

2) Набор правил постобработки согласованности дискурса, основанный на концепции, согласно которой «фрагмент текста часто не следует понимать индивидуально, а следует понимать, связывая его с другими текстовыми единицами из его контекста» (Lin et al, 2012: 151), которые гарантируют, что согласованность генерируемых сводок не будет нарушена.

Речевые действия

Опираясь на работы Джона Л. Остина и Джона Р. Сирла по теории речи-акта, в Courier мы реализовали модуль, который анализирует предложения в соответствии с их иллокутивной силой, то есть их намерением и их влиянием в мире. .

Мы используем упрощенную версию Stolcke et al. (2000), которую мы применяем к предложениям в электронных письмах, чтобы мы могли использовать эту информацию для создания сводок по электронной почте, релевантных с прагматической точки зрения.

Это помогает нам узнать, выражает ли предложение обязательство выполнить действие, выдачу команды или запроса, вопрос, желание или потребность или просто простое утверждение.

Сарказм

Сарказм - это косвенный акт речи, «в котором говорящие передают свое сообщение неявным образом». (Цур и др., 2010: 162)

Обнаружение сарказма - важная задача вычислительной прагматики, в частности, и понимания естественного языка (NLU) в целом, особенно подходящая в качестве дополнительной задачи для других задач NLU, таких как классификация настроений и / или эмоций. Учитывая его фундаментальную двусмысленность, сарказм является частым источником «недопонимания в повседневном общении» (Давыдов и др., 2010: 107)

Внутренняя сложность обнаружения сарказма, которую во многих случаях очень трудно распознать даже людям, возникает из-за его косвенной речевой природы, поскольку читатели или слушатели саркастических высказываний должны использовать комбинацию намеков / сигналов, чтобы попытаться распознать истинную природу этих высказываний. Общие общие мировые знания (общие основы), лексические и / или грамматические подсказки, экстремальные семантические интенсификации, контекстная и паралингвистическая информация (например, тон голоса или мимические жесты) входят в число частей информации, которые люди используют, чтобы попытаться распознать, являются ли определенные утверждения правильными. на самом деле саркастично или нет.

Несмотря на эту трудность и предполагая, что нижеследующее учитывает только подмножество саркастических явлений в общении, Кройц и Кауччи (то же самое) предполагают, что существуют локальные факторы, такие как пунктуация, использование междометий, лексическое повторение и т. Д., Которые могут использоваться для идентификации по крайней мере, часть саркастических высказываний.

В Courier мы реализовали модуль анализа, который полагается только на локальную информацию, чтобы обнаружить сарказм в эмоциональных предложениях.

Последние слова

В Codeq мы считаем, что попытка уловить прагматические явления при выполнении задач автоматического анализа текста имеет решающее значение для успеха проектов NLU.

В этой короткой статье мы описали прагматические точки зрения, с которых Courier анализирует контент из разговорных электронных писем, чтобы создавать лучшие сводки электронной почты для наших пользователей.

Несмотря на внутренние трудности со 100% точным обнаружением прагматических явлений, команда НЛП в Codeq продолжит работу над этими и, возможно, другими модулями вычислительной прагматики, чтобы продолжать расширять границы промышленных приложений НЛП.

Мы надеемся, что вы присоединитесь к нам в исследовании этого последнего рубежа НЛП. Получи Курьера!

использованная литература

Давыдов, Д., Цур, О., & Раппопорт, А. (2010). Полуконтролируемое распознавание саркастических предложений в twitter и amazon. Труды четырнадцатой конференции по компьютерному изучению естественного языка, Ассоциация компьютерной лингвистики, 107–116

Остин, Дж. Л. (1962). Как поступать со словами. Кембридж: Издательство Гарвардского университета

Ходак М., Саунши Н. и Водрахалли К. (2017). Большой самоаннотированный корпус сарказма. CoRR, 1–5.

Кройц, Р. Дж., И Кауччи, Г. М. (2007). Лексические влияния на восприятие сарказма, 1–4.

Lin, Z., Ng, H. T., & Kan, M.-Y. (2012). Сквозной синтаксический анализатор дискурса в стиле PDTB. Инженерия естественного языка, 20 (02). С. 151–184.

Лингвистическое общество Америки. Смысл (семантика и прагматика). Лингвистическое общество Америки. Https://www.linguisticsociety.org/resource/meaning-semantics-and-pragmatics (дата обращения 2017–10–03).

Нордквист, Р., 2017. Что такое прагматика?. ThoughtCo. Https://www.oughttco.com/pragmatics-language-1691654 (дата обращения: 2017–10–03)

Серл, Дж. Р. (1969). Речевые акты: очерк философии языка. Кембридж: Издательство Кембриджского университета.

Столке А., Райс К., Коккаро Н., Шриберг Э., Бейтс Р., Джурафски Д. и др. (2000). Моделирование диалогового акта для автоматической разметки и распознавания разговорной речи. Компьютерная лингвистика, 26 (3), 339–373.

Цур О., Давыдов Д., Раппопорт А. (2010). ICWSM - отличное запоминающееся имя: полу-контролируемое распознавание саркастических предложений в онлайн-обзорах продуктов, 162–169.

ван Дейк, Т.А., 2009. Общество и дискурс: как социальные контексты влияют на текст и разговор. Издательство Кембриджского университета, Кембридж.

Авторы Википедии. "Прагматика". Википедия, свободная энциклопедия. Https://en.wikipedia.org/w/index.php?title=Pragmatics&oldid=802453855 (по состоянию на 2017-10-03).