Более надежные метрики оценки, языковые модели, которые ничего не понимают, и на пути к лучшей оценке для исправления грамматических ошибок.

COLING 2022 прошел в середине октября в Кёнджу (Республика Корея).

На эту конференцию по обработке естественного языка (НЛП) поступило 2253 материала со всего мира, из которых только 632 (28,1%) были приняты к публикации 1935 рецензентами и 44 старшими председателями программного комитета.

Для этих основных моментов я выбрал 6 статей, которые привлекли мое внимание.

Слой или пространство представления: что делает метрики оценки на основе BERT надежными?

Доан Нам Лонг Ву (Технический университет Дармштадта), Нафисе Садат Мусави (Шеффилдский университет) и Штеффен Эгер (Университет Билефельда)

Последние показатели для генерации естественного языка основаны на предварительно обученных языковых моделях, например, BERTScore, BLEURT и COMET. Эти метрики достигают высокой корреляции с человеческими оценками на стандартных тестах. Однако неясно, как эти показатели работают для стилей и доменов, которые недостаточно хорошо представлены в их обучающих данных.

Другими словами, являются ли эти показатели надежными?

Авторы обнаружили, что BERTScore неустойчив к возмущениям на уровне символов. Например, вставка/удаление некоторых символов из предложений значительно снизит корреляцию с человеческими оценками.

Авторы показывают, что использование модели с встраиванием символов, такой как ByT5, вместо стандартной модели BERT делает BERTScore более надежным, особенно если мы используем вложения из первого слоя.

На мой взгляд, это выдающаяся работа с возможными приложениями для широкого круга задач генерации естественного языка.

Из этой статьи я делаю вывод, что метрики, основанные на встраивании слов, такие как исходный BERTScore, вероятно, не подходят для оценки задач, связанных с текстами, созданными пользователями, т. Е. Типами текстов, которые могут содержать много грамматических ошибок, например тексты с онлайн-площадок для дискуссий. На мой взгляд, эта адаптация BERTscore с ByT5 может улучшить оценку пользовательских текстов.

Примечание. Эта статья получила награду за выдающуюся работу на конференции.

Исправление грамматических ошибок: дошли ли мы до конца?

Авторы Мухаммад Реза Кориб (Национальный университет Сингапура) и Хви Тоу Нг (Национальный университет Сингапура)

В этой статье впервые показано, что современные подходы к исправлению грамматических ошибок (GEC), по-видимому, превосходят людей в стандартных тестах.

Интересно, что авторы обнаружили, что оцениваемые системы GEC фактически не исправляют значительное количество предложений стандартных тестов GEC, чего не наблюдается для людей.

Системы GEC чаще терпят неудачу при исправлении неестественных фраз, длинных предложений и сложных структур предложений.

Авторы приходят к выводу, что системы GEC все еще далеки от возможностей человека, но текущие тесты слишком просты для систем GEC. Они предлагают создать новые тесты, ориентированные на грамматические ошибки, которые по-прежнему сложно исправить с помощью систем GEC.

Мне особенно нравится эта работа за указание на некоторые фактические ограничения систем GEC. В то время как недавняя работа восхваляет сверхчеловеческую производительность систем GEC, этот документ помогает уменьшить ожидания и мотивировать будущую исследовательскую работу для дальнейшего улучшения систем GEC, чтобы они, наконец, могли достичь производительности, сравнимой с человеческой.

Итак, отвечая на заголовок статьи: нет, систем GEC еще нет.

Машинное чтение, быстрое и медленное: когда модели «понимают язык?»

Сагник Рэй Чоудхури (Мичиганский университет, Копенгагенский университет), Анна Роджерс (Копенгагенский университет) и Изабель Огенштейн (Копенгагенский университет)

Это еще одна работа, показывающая, что большие языковые модели ничего не понимают.

Они оценили 5 языковых моделей по двум лингвистическим навыкам: сравнение и разрешение кореферентности.

Их результаты ясно показывают, что все модели основаны на определенных лексических шаблонах, а не на информации, которую человек может использовать для успешного выполнения этих задач.

Они показывают это, подвергая модели воздействию контрфактических возмущений вне распределения. Модели не знают, как с ними обращаться, и значительно отстают. Отсюда предположения, что эти модели всего лишь запоминают лексические модели, а не «понимают».

Я нахожу эту статью особенно интересной из-за подхода, выбранного для демонстрации того, что компьютер и люди не одинаково обрабатывают текст.

О взаимодополняемости между предварительным обучением и случайной инициализацией для ресурсоемкого машинного перевода

Changtong Zan (Китайский университет нефти), Liang Ding (Академия JD Explore), Li Shen (Академия JD Explore), Yu Cao (Сиднейский университет), Weifeng Liu (Китайский университет нефти) и Dacheng Tao (Академия JD Explore, Сиднейский университет)

Машинный перевод с богатыми ресурсами — это одна из задач, которая еще не получила явных преимуществ от предварительно обученных языковых моделей (LM).

В этой работе авторы предлагают провести исследование, чтобы лучше понять, когда и как предварительно обученные языковые модели могут быть полезны для инициализации систем машинного перевода в сценариях, богатых ресурсами.

Сначала они показывают, что, хотя это почти не влияет на точность перевода, инициализация с предварительно обученным LM приводит к более плоским ландшафтам потерь и более гладкому распределению лексических вероятностей.

Исходя из этих наблюдений, они предполагают, что инициализация с предварительно обученным LM может привести к более высокой точности перевода для наборов данных вне домена, в то время как случайная инициализация будет лучше при переводе наборов данных в домене. Они подтвердили эти предположения эмпирическими экспериментами.

Наконец, они предлагают согласование как предварительно обученного LM, так и случайной инициализации, чтобы получить лучшее из них в одном и том же обучении.

Я не уверен, что эта работа, наконец, станет той, которая мотивирует интеграцию предварительно обученного LM в ресурсоемкий машинный перевод. Тем не менее, я думаю, что это стоит выделить, чтобы показать, что исследователи все еще активно работают над этим.

Устранение неравенства внимания для нейронного машинного перевода

Цевей Сунь (ByteDance AI Lab), Шуцзянь Хуанг (Нанкинский университет, лаборатория Пэн Ченг), Синь-Ю Дай (Нанкинский университет) и Цзяцзюнь Чен (Нанкинский университет)

Предыдущая работа показала, что все заголовки внимания в машинном переводе не одинаково важны.

Исходя из этого наблюдения, в этой работе предлагается новая «маска для головы», чтобы заставить модель лучше сбалансировать тренировку по головам внимания.

Описаны два очень простых метода маскирования голов: случайное маскирование и маскирование важных голов.

Они наблюдали (небольшие) улучшения в BLEU для различных языковых пар при использовании обоих методов. Случайная маскировка, кажется, работает лучше, хотя она не выглядит существенной. Тем не менее, важная маскировка головы лучше помогает сбалансировать важность между головой во время тренировки.

Мне особенно нравится простота метода. Эту маскировку головы можно легко внедрить в существующие системы машинного перевода.

Генерация парафраз как неконтролируемый машинный перевод

Авторы: Сяофэй Сунь (Чжэцзянский университет, Shannon.AI), Юфэй Тянь (Калифорнийский университет), Юйсянь Мэн (Shannon.AI), Наньюнь Пэн (Калифорнийский университет), Фей Ву (Чжэцзянский университет), Цзивэй Ли (Чжэцзян) университет, Shannon.AI) и Чун Фань (Пекинский университет)

Большинство обучающих наборов данных, доступных для обученной генерации парафраз под наблюдением, написаны на английском языке, ограничены несколькими доменами и имеют небольшой размер.

Чтобы смягчить эти ограничения, в недавней работе было предложено неконтролируемое создание парафраз. Эти подходы требуют только большого количества текстов на интересующем языке.

В этой статье авторы предложили новый подход, вдохновленный неконтролируемым машинным переводом (UMT).

УМТ берет для обучения два корпуса на исходном и целевом языках. Встраивания слов для обоих языков сначала изучаются совместно и используются для инициализации системы машинного перевода. Затем модель этой системы перевода уточняется с использованием комбинации потерь автоматического кодирования и обратного перевода.

Для генерации парафраз у нас нет исходного и целевого языков. Вместо этого они предлагают работать на уровне предметной области (или темы). Исходный и целевой языки из UMT становятся исходным и целевым доменами. Чтобы получить эти домены, они выполняют кластеризацию LDA и k-средних для некоторого одноязычного набора данных, где каждый кластер (потенциально) является другим доменом. Затем они обучают модели UMT для нескольких пар доменов. Наконец, одна модель машинного перевода обучается на 25 миллионах пар предложений, сгенерированных несколькими ранее обученными моделями универсального машинного перевода.

Они оценивают свой подход с помощью обширных экспериментов, чтобы продемонстрировать улучшения по сравнению с предыдущей работой. Оценка очень убедительна:

  • Они использовали 3 разных автоматических показателя: iBLEU, BLEU и ROUGE.
  • Они воспроизвели несколько базовых систем из предыдущей работы.
  • Они экспериментировали на 4 разных тестах
  • Они провели оценку человека

Как человек, который много работал над технологией неконтролируемого машинного перевода, я ожидал, что в какой-то момент она будет применена к перефразированию, но не мог найти, как это сделать. В этой статье кластеризация по темам/областям одноязычных данных кажется основной причиной того, почему это работает.

Хотя улучшения убедительны, я не могу понять, почему это работает так хорошо. Необходимость кластеризации не очень хорошо мотивирована в статье, но кажется, что это важная часть этой работы. Кроме того, они не обсуждают подробно, почему их подход лучше, чем предыдущая работа. Каковы ограничения предыдущих методов генерации парафраз без учителя, которые рассматриваются в этой работе?

Заключение

Я выбрал здесь лишь несколько статей из 632 опубликованных. Я призываю вас поближе ознакомиться с полными материалами и семинарами.

Если вам интересны последние достижения в области машинного перевода, вы также можете ознакомиться с моими основными моментами AMTA 2022:



Если вы хотите поддержать эту работу, подпишитесь на меня на Medium.