Лингвистическая мудрость моделей НЛП

Анализ, проектирование и оценка лингвистических проб.

Авторы статьи Кейюр Фалду и Dr. Амит Шет . В этой статье подробно рассматривается нишевый аспект более широкой статьи на обложке Расцвет современного НЛП и необходимость интерпретируемости! Мы в Embibe сосредоточены на разработке интерпретируемых и объяснимые системы глубокого обучения, и мы изучаем современное состояние техники, чтобы ответить на некоторые открытые вопросы о лингвистической мудрости, полученной с помощью моделей НЛП.

Эта статья является продолжением предыдущей статьи (Обнаружение закодированных лингвистических знаний в моделях НЛП), чтобы понять, какие лингвистические знания закодированы в моделях НЛП. В предыдущей статье рассказывается о том, что такое зондирование, чем оно отличается от многозадачного обучения, и о двух типах зондов: исследования на основе представления и исследования на основе весов внимания. Это также проливает свет на то, как пробная задача (или вспомогательная задача) используется для оценки лингвистических способностей моделей НЛП, обученных некоторым другим основным задачам.

Естественно, прогнозирование тестовых характеристик лингвистических задач или поддерживающих шаблонов для корреляции или сравнения механики нейронной сети с лингвистическим явлением дает представление о том, что и как закодированы лингвистические знания. Эффективность предсказания может быть точностью классификации, коэффициентами корреляции или средним обратным рангом предсказания золотой метки. Обратите внимание, что производительность прогнозирования модели в тестовой задаче можно сравнить с современной производительностью явно обученной модели для той же задачи, что и для основной задачи, чтобы понять объем закодированных лингвистических знаний. Однако есть и другие аспекты, которые стоит погрузиться глубже, чтобы проанализировать такие зонды, в том числе следующие.

Чем больше, тем лучше? Как лингвистические знания, полученные с помощью модели, зависят от ее сложности? т. е. размерности, количество параметров и т. д. Исследование производительности классификатора на вспомогательной задаче с моделями разной сложности позволило бы объяснить этот вопрос.
Необходимо оценить способность к обобщению сложных тестовых данных, чтобы приписать успех исследований закодированным лингвистическим знаниям. Например, что, если обучающие данные обычно содержат «главное вспомогательное» в качестве первого глагола, но обобщенные данные намеренно содержат отвлекающие факторы, а «основное вспомогательное» больше не является первым глаголом. В таких случаях, если зонды могут обнаруживать «основные вспомогательные» глаголы, это может быть связано с языковыми особенностями, такими как деревья синтаксического анализа, а не с последовательными позиционными признаками.
Способность декодировать лингвистические знания. Задачи классификации относительно менее сложны по сравнению с задачами, относящимися к декодированию или построению лингвистических знаний, т.е. можем ли мы построить полное дерево синтаксического анализа зависимостей, используя внутренние представления? Интересно открывать подходы к восстановлению скрытых лингвистических знаний.
Ограничения и источник лингвистических знаний: Когда Probes могут хорошо выполнять вспомогательные лингвистические задачи, но это из-за некоторой корреляции или есть причинно-следственная связь? Поскольку глубокая и сложная модель зонда также может запоминать, она может превосходить искомые лингвистические знания. Итак, как мы можем доказать источник языковых знаний, выраженных зондами? При разработке «контрольной задачи», в которой прогностические характеристики зондов можно сравнить с выполнением контрольных задач, можно выявить эффективность зондов и источник лингвистических знаний.
Внедрение лингвистических знаний: если модели нейронных сетей изучают лингвистические знания в процессе обучения для выполнения сквозной задачи, можно ли влить лингвистические знания, т. е. деревья синтаксического разбора, для повышения производительность?
Улавливают ли закодированные лингвистические знания смысл? Лингвистические знания, такие как теги POS, деревья зависимостей и т. д., носят синтаксический характер. Реальные приложения ожидают, что модели НЛП будут понимать семантические значения. Итак, крайне важно оценить способность модели кодировать семантическое значение.

Приведенные выше соображения помогают нам уточнить детали, чтобы лучше понять зонды. Мы также можем сделать важные выводы о закодированных лингвистических знаниях в моделях НЛП. Давайте углубимся в примеры и обзоры исследовательских работ по этим темам.

(A) Чем больше, тем лучше?

Одним из первых исследований, призванных формально исследовать проблему зондирования закодированных лингвистических знаний, является «ТОЧНЫЙ АНАЛИЗ ВЛОЖЕНИЙ ПРЕДЛОЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ДОПОЛНИТЕЛЬНЫХ ЗАДАЧ ПРОГНОЗИРОВАНИЯ», где Adi et al. [11] направлен на лучшее понимание представлений закодированных предложений.

Были рассмотрены три вспомогательные задачи, связанные со структурами предложений:

Длина предложения: кодирует ли встраивание предложения информацию о длине предложения?
Word-content: можно ли предсказать, содержится ли слово в предложении, на основе вложений предложений.
Порядок слов. Можно ли определить порядок двух слов с учетом вложения предложений и двух слов?

Эти проверки основаны на внедрении предложений, которое вычисляется как среднее значение окончательных представлений, созданных моделью кодировщика-декодера и моделью CBOW (непрерывный мешок слов). Ключевые выводы, сделанные в статье, чтобы понять, «являются ли более крупные модели лучше кодируют лингвистические знания», как показано ниже:

Увеличение количества измерений приносит пользу одним задачам больше, чем другим. Как показано на рисунке 2, тесты длины (а) и порядка © получают преимущество более крупных размеров представления, в то время как тест содержимого достигает пика при представлении с 750 измерениями.

С другой стороны, модели CBOW, которые имеют гораздо меньше параметров, чем модели кодировщика-декодера, с меньшими размерами, также могут хорошо работать для задач «текстовое содержание».

(B) Способность к обобщению

Модели можно тестировать на данных обобщения, чтобы проверить степень обучения модели. А специально разработанные комплексные данные обобщения могут проверить предел лингвистической мудрости, усвоенной моделями НЛП. Обобщение таких сложных данных показывает реальную лингвистическую способность, в отличие от запоминания паттернов поверхностного уровня.

Рисунок 3. Примеры данных по обучению и развитию, которые имеют более простой характер. Данные обобщения более сложны при наличии отвлекающих факторов. (i) Основная вспомогательная задача: Будет - это целевое слово, а может - это отвлекающий фактор, добавленный в данные обобщения. (ii) Задача предметного существительного: пчела - это целевое слово, а королева - добавленный отвлекающий фактор. в обобщающих данных. (Линь и др. [15], ACL 2019)

Lin et al. [15] проводили такие эксперименты в статье Open Sesame: Getting Inside BERT's Linguistic Knowledge. На рисунке 3 показано, как обобщенные данные могут содержать преднамеренные отвлекающие факторы для закодированных лингвистических знаний модели стресс-теста.

«Основная вспомогательная задача» - определить главный вспомогательный глагол (вспомогательный глагол) в предложении. Данные по обучению и развитию содержат «главный вспомогательный глагол» в качестве первого глагола в предложениях, однако набор данных обобщения содержит его глубже в предложении.
Точно так же задача «Предметное существительное» состоит в том, чтобы идентифицировать существительное, выступающее в качестве подлежащего, которое является первым существительным в данных по обучению и развитию, но оно модифицируется в обобщающем наборе.

Выводы:

Главный вспомогательный глагол в обучающем предложении «кошка будет спать» - это «будет». Принимая во внимание, что «банка, которая может мяукать будет спать» - это сложное обобщающее предложение. Следовательно, предсказание главного вспомогательного глагола «будет» затруднено из-за наличия отвлекающего фактора «может». Характеристики зонда на приведенном выше рисунке 4 (слева) показывают, что слои BERT кодируют лингвистическую информацию, чтобы действительно хорошо обнаруживать «главный вспомогательный глагол» на данных обобщения.
Аналогичным образом, обобщение прогрессивного набора данных для задач «подлежащее существительное» является относительно сложной задачей. Однако увеличение закодированной лингвистической информации может быть замечено по мере того, как производительность зондирующего классификатора увеличивается на последовательных уровнях.

В этой статье дополнительно исследуется «механизм внимания» модели и насколько она чувствительна к таким отвлечениям. Он предлагает «показатель путаницы», который представляет собой двоичную кросс-энтропию внимания токенов-кандидатов к целевому токену.

Рисунок 5: Оценка неточности

Мы можем видеть, как уменьшается путаница, когда сложность дистрактора становится меньше в приведенных ниже случаях.

Путаница в A1 снизилась с 0,97 до 0,93 в A1, потому что отвлекающий фактор в A2 «собаки» относительно легче уловить, поскольку он не соответствует сингулярности глагола «делает» . Точно так же путаница в A3 снизилась с 0,85 до 0,81 в A4 по той же причине.
Путаница A1 снизилась с 0,97 до 0,85 в A3 (и аналогично для случая A2, A4) из-за наличия дополнительного относительного предложения, которое, возможно, привело бы к лучшей идентификации иерархической синтаксической структуры.

(C) Способность расшифровывать лингвистические знания

Поскольку зонды-классификаторы имеют сравнительно меньшую сложность, интересно исследовать, можем ли мы декодировать закодированные лингвистические знания в целом. Скажем, можем ли мы построить деревья разбора зависимостей, полностью полагаясь на закодированные представления?

Хьюитт и Мэннинг [5] предлагают «Структурный анализ» в статье «Структурный анализ для поиска синтаксиса в представлениях слов», где эмпирически можно сделать вывод, что можно преобразовать пространство внутренних представлений в пространство лингвистических знаний. Зонд идентифицирует линейное преобразование, при котором возведенное в квадрат расстояние L2 преобразованных представлений кодирует расстояние между словами в дереве синтаксического анализа, и преобразование, при котором возведенная в квадрат норма L2 преобразованных представлений кодирует глубину в дереве синтаксического анализа.

Как можно видеть, лингвистические знания усваивались моделью слой за слоем, и оно исчезает на верхних слоях, потому что эти уровни больше настроены на основную целевую функцию. Также было изучено, помогает ли увеличение размеров преобразованного пространства в выражении лингвистических знаний, где эксперименты показывают, что лингвистические знания для синтаксического дерева зависимостей могут быть выражены примерно в 32 или 64 измерениях, добавление дополнительных измерений не добавляет ценности.

(D) Ограничения и источник языковых знаний

Зонды, контролируемые модели, обученные предсказанию языковых свойств, достигли высокой точности при решении ряда лингвистических задач. Но означает ли это, что репрезентации кодируют лингвистическую структуру или просто зонд изучил лингвистическую задачу? Можем ли мы осмысленно сравнить лингвистические свойства слоев модели, используя точность лингвистической задачи? Достаточно глубокая модель зонда может запоминать лингвистическую информацию. Итак, как мы можем устранить это ограничение?

Хьюитт и Лян предлагают «Селективность» в качестве меры, чтобы показать эффективность зондов в документе «Проектирование и интерпретация зондов с контрольными задачами». Задачи управления разработаны, чтобы узнать, как зонд может изучать лингвистическую информацию независимо от закодированных представлений. Селективность определяется как разница между точностью лингвистической задачи и точностью контрольной задачи.

Как можно увидеть на приведенном выше рисунке 9, задача управления для части прогнозирования речи будет назначать некоторый тип слова (или идентичность) набору слов независимо, а тег POS будет прогнозироваться на основе типов слов (игнорируя закодированные представления в целом ). Таким образом, если глубинный зонд способен запоминать, он также должен хорошо справляться с контрольной задачей. Сложность модели зонда и точность, достигнутые для вспомогательной задачи части речи и задачи управления ею, показаны выше на правом рисунке. Чтобы делать выводы, крайне важно выбрать зонд с высокой селективностью и точностью.

Ади и др. Исследуют источник знаний о структуре предложения в статье «ТОЧНЫЙ АНАЛИЗ ВЛОЖЕНИЙ ПРЕДЛОЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ДОПОЛНИТЕЛЬНЫХ ЗАДАЧ ПРОГНОЗИРОВАНИЯ». Несмотря на то, что модель CBOW не обращала внимания на окружающий контекст, Probe смог дать высокую точность вспомогательной задаче по прогнозированию длины предложения. Однако было обнаружено, что только норма встраивания предложения показывала длину предложения (рисунок 10 (справа)), поэтому источником информации не было закодированных представлений токена. Однако, когда эти представления были агрегированы, норма имеет тенденцию приближаться к 0, как установлено центральной предельной теоремой и неравенством Хёффдинга. На рисунке 10 (слева) можно заметить, что точность предсказания длины для синтетических предложений (случайные слова, выбранные для формирования синтетического предложения) также была близка к законным предложениям. Итак, фактическим источником знаний для определения длины предложения было просто статистическое свойство агрегирования случайных величин.

Следовательно, это требует глубокого изучения и анализа, чтобы делать выводы на основании результатов исследований.

(E) Распространение лингвистических знаний

Теперь, когда мы изучили методы анализа зондов для закодированных лингвистических знаний, возникает следующий вопрос: «Можем ли мы привнести явные лингвистические знания для достижения желаемых результатов?». Есть интересное исследование о генерации парафраз, «Управляемое синтаксисом создание парафраз». Кумар и др. [А] показали, что, чтобы перефразировать исходное предложение, как можно использовать синтаксис образцового предложения. Сгенерированный пересказ должен сохранять значение исходного предложения, но синтаксическая структура предложения должна быть подобна образцу предложения.

На приведенном выше рисунке 11 показаны сгенерированные перефразировки с учетом синтаксиса различных образцовых предложений. Мы можем наблюдать, как модель может получить руководство из синтаксиса образцовых предложений. Обратите внимание, что в качестве входных данных используется только синтаксис образцовых предложений, фактические отдельные токены не передаются в модель. Синтаксическое дерево примерного предложения может быть извлечено на разной высоте H, и оно может быть подано в качестве входных данных в модель кодер-декодер. Меньшая высота дает большую гибкость перефразирования, в то время как более глубокая высота пытается явно управлять синтаксической структурой перефразирования.

(F) Улавливают ли закодированные лингвистические знания значение?

Закодированные лингвистические знания необходимы для понимания значения естественного языка. Большинство проверок, которые мы видели, касается синтаксических лингвистических знаний. Необходимо понимать семантическое значение, заключенное в тексте. Нам необходимо разработать фреймворки для оценки возможностей моделей НЛП, таких как BERT, для того же. Понимание прочитанного, подобие текста, ответы на вопросы, нейронный машинный перевод и т. Д. - вот некоторые из примеров, когда истинная производительность модели будет основана на ее способности кодировать семантическое значение.

Такие тесты, как GLUE и SuperGLUE, разработаны для оценки способности точно настроенных моделей НЛП выполнять задачи, основанные на понимании естественного языка. Обычно производительность моделей НЛП сравнивается с точностью проверки. Существуют неотъемлемые ограничения в использовании точности проверки, такие как переоснащение, распределение данных набора проверки и т. Д. В статье «За пределами точности: поведенческое тестирование моделей НЛП с помощью контрольного списка» представлена структура для оценки производительности модели, выходящей за рамки точности проверки.

«КОНТРОЛЬНЫЙ СПИСОК» предлагает три различных типа тестов: тесты минимальной функциональности (MFT), где примеры генерируются с ожидаемыми золотыми метками., Инвариантность (INV), где из данных примеров создаются новые примеры, где золотые метки меняются местами, и направленный Тесты ожидания (DIR) изменяют золотые метки в положительную или отрицательную сторону. Примеры каждого из них приведены ниже:

Было удивительно заметить, что, хотя такие модели, как Роберта и BERT, превосходят человеческие базовые показатели (с точностью 91,1% и 91,3%), они терпят неудачу при простых основанных на правилах обобщениях набора данных проверки. Тем не менее, впереди долгая дорожная карта для достижения понимания естественного языка на человеческом уровне.

Мы прошли через зонды, чтобы оценить закодированные лингвистические знания в моделях НЛП. Мы обнаружили, что

Модели НЛП действительно кодируют лингвистические знания для решения некоторых последующих задач НЛП.
Более крупные модели или представления не обязательно кодируют лучшие лингвистические знания
Лингвистические знания, закодированные для синтаксических задач, обобщаются на тестовых данных со сложной структурой предложений, что указывает на способность модели кодировать лингвистическую грамматику.
Более глубокие зонды могут переобучать и потенциально запоминать вспомогательные задачи, что приводит к переоценке закодированных лингвистических знаний. Следовательно, рекомендуется разработать контрольные задачи для датчиков.
Когда предоставляются лингвистические знания, модели могут лучше справляться с задачами, требующими руководства на основе таких знаний.
Синтаксических лингвистических знаний недостаточно, чтобы уловить смысл понимания естественного языка. Современные модели далеки от понимания, необходимого для задач НЛП.

Закодированные лингвистические знания носят преимущественно синтаксический характер, и, как демонстрирует «КОНТРОЛЬНЫЙ СПИСОК», модели терпят неудачу при обобщении, которое носит семантический характер. Современные модели НЛП в первую очередь предварительно обучаются в режиме самоконтроля на немаркированных данных и настраиваются на ограниченные помеченные данные для последующих задач. Определенно сложно получить семантические знания, связанные с задачами или доменами, из немаркированных данных или ограниченных помеченных данных.

За пределами лингвистических знаний…

Внедрение семантических знаний и знаний предметной области улучшает способность модели НЛП кодировать семантические знания и знания предметной области. В результате он по своей сути развивает способность рассуждать и генерировать правдоподобные и правдивые объяснения. Гуар и др. [19] описывают, как графы знаний могут помочь сделать системы глубокого обучения более интерпретируемыми и объяснимыми.

Использованная литература:

Белинков Ю., Гласс Дж., 2019. Методы анализа в обработке нейронного языка: обзор. Труды Ассоциации компьютерной лингвистики, 7, стр. 49–72.
Кларк, К., Ханделвал, У., Леви, О. и Мэннинг, К.Д., 2019. На что смотрит Берт? анализ внимания Берта. Препринт arXiv arXiv: 1906.04341
Тенни, И., Дас, Д. и Павлик, Э., 2019. BERT заново открывает классический конвейер НЛП. Препринт arXiv arXiv: 1905.05950.
Хьюитт, Дж. и Лян, П., 2019. Проектирование и интерпретация зондов с задачами управления. Препринт arXiv arXiv: 1909.03368.
Хьюитт, Дж. и Мэннинг, К. Д., 2019 г., июнь. Структурный зонд для поиска синтаксиса в представлениях слов. В материалах конференции 2019 года Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (длинные и короткие статьи) (стр. 4129–4138). Голдберг, Оценка синтаксических способностей BERT, 2019
Гольдберг, Ю., 2019. Оценка синтаксических способностей BERT. Препринт arXiv arXiv: 1901.05287.
Хофманн В., Пьерхумберт Дж. Б. и Шютце Х., 2020. Создание деривационной морфологии с помощью BERT. Препринт arXiv arXiv: 2005.00672.
Коенен, А., Рейф, Э., Юань, А., Ким, Б., Пирс, А., Виегас, Ф. и Ваттенберг, М., 2019. Визуализация и измерение геометрии Берта. Препринт arXiv arXiv: 1906.02715.
Тенни, И., Ся, П., Чен, Б., Ван, А., Поляк, А., Маккой, Р. Т., Ким, Н., Ван Дурм, Б., Боуман, С. Р., Дас, Д. . и Павлик, Э., 2019. Чему вы научитесь из контекста? исследование структуры предложения в контекстуализированных представлениях слов. Препринт arXiv arXiv: 1905.06316.
Петерс, М.Е., Нойман, М., Зеттлемойер, Л. и Йих, В.Т., 2018. Анализ контекстных встраиваний слов: архитектура и представление. Препринт arXiv arXiv: 1808.08949.
Ади, Ю., Кермани, Э., Белинков, Ю., Лави, О., Голдберг, Ю., 2016. Детальный анализ вложений предложений с использованием вспомогательных задач прогнозирования. Препринт arXiv arXiv: 1608.04207.
Stickland, A.C., Murray, I., 2019. Берт и его друзья: спроецированные уровни внимания для эффективной адаптации в многозадачном обучении. Препринт arXiv arXiv: 1902.02671.
Чжоу, Дж., Чжан, З., Чжао, Х. и Чжан, С., 2019. LIMIT-BERT: Лингвистическая многозадачность. Препринт arXiv arXiv: 1910.14296.
Джавахар, Г., Сагот, Б. и Седдах, Д., 2019 г., июль. Что BERT узнает о структуре языка?
Линь Ю., Тан Ю.С. и Фрэнк, Р., 2019. Open Sesame: Знакомство с лингвистическими знаниями BERT. Препринт arXiv arXiv: 1906.01698.
Кумар А., Ахуджа К., Вадапалли Р. и Талукдар П., 2020. Управляемая синтаксисом генерация парафраз. Препринт arXiv arXiv: 2005.08417.
де Фрис, В., ван Краненбург, А. и Ниссим, М., 2020. Что такого особенного в слоях BERT? Более пристальный взгляд на конвейер НЛП в одноязычных и многоязычных моделях. Препринт arXiv arXiv: 2004.06499.
Рибейро М.Т., Ву Т., Гестрин К. и Сингх С., 2020. Помимо точности: поведенческое тестирование моделей НЛП с помощью контрольного списка. Препринт arXiv arXiv: 2005.04118.
Гаур, М., Фалду, К. и Шет, А., 2020. Семантика черного ящика: могут ли графы знаний помочь сделать системы глубокого обучения более интерпретируемыми и объяснимыми ?. Препринт arXiv arXiv: 2010.08660.