Награда за лучшую работу в ACL 2020 (пошаговое руководство по исследовательской работе)

Часто в Обработке естественного языка (НЛП) мы видим некую меру точности как доказательство правильности нашей модели. Но очевидно, что такие автоматизированные объективные оценки в конечном итоге приводят к переоценке производительности модели в основном из-за недостаточно репрезентативного характера тестового разделения и малых объемов. С другой стороны, при таком большом количестве обучающих данных очень вероятно, что модель выучит определенные ярлыки для конкретных задач, чтобы хорошо работать с тестовыми данными, вместо того, чтобы изучать некоторые низкоуровневые фундаментальные языковые свойства, которые могут быть полезны для текущей задачи.

Учитывая эти превалирующие проблемы, исследователи вводят понятие Контрольный список. Контрольный список - это новая методология оценки для комплексного функционального тестирования моделей НЛП, в которой у нас есть матрица лингвистических возможностей, таких как переключение именованных сущностей, Отрицания, Устойчивость к опечаткам и т. д. и Типы тестов, например Тест минимальной функциональности (MFT), Направленное ожидание (DIR) и Проверка инвариантности (INV) по осям X и Y соответственно. Автор также выпустил CheckList как инструмент, который позволяет пользователям создавать большое количество тестов случаи, используя созданные шаблоны, лексиконы, пертурбации, контекстно-зависимые предложения с использованием RoBERTa и так далее. Теперь давайте подробно разберемся с типами тестов -

  1. Тест минимальной функциональности (MFT) проверяет поведение модели на некоторых тщательно отобранных образцах тестов для конкретных задач в пределах своих возможностей. Он основан на модульных тестах разработки программного обеспечения. Например, проверка отрицания негативных настроений -

Приговор: Еда неплохая. (отрицательное или положительное мнение)

В идеале в таких случаях модель должна быть способной предсказать и понять отрицание и вывод либо как положительное, либо как нейтральное настроение, в противном случае тестовый пример будет рассматриваться как сбой модели.

2. Направленное ожидание (DIR) проверяет, изменяет ли какое-либо расширение текущего предложения с тем же намерением предсказания модели на определенную величину или нет. Например -

Исходное предложение: мне не нравится эта еда. (-в настроении)

Измененное предложение: мне не нравится эта еда. Безвкусный. (-в настроении)

В идеале в этом случае модель не должна существенно менять настроения в противоположную сторону. Если это произойдет, сверх определенного порога, определенного пользователем, то тестовый пример будет рассматриваться как сбой модели.

3. Тест инвариантности (INV) проверяет, изменяется ли метка класса, изменяя исходное предложение. Возмущения могут быть на уровне NER (например, изменение местоположения в предложении), замена слов их синонимами, введение односимвольной опечатки и т. Д. Например:

Первоначальное предложение: я хочу, чтобы вы, ребята, первыми полетели в Канаду. (Прогнозируемый класс A)

Измененное предложение: я хочу, чтобы вы, ребята, первыми полетели на Кубу (прогнозный класс A)

В идеале в этом случае модель не должна менять метку класса. Если это произойдет, то тестовый пример будет рассматриваться как сбой модели.

Оценка моделей SOTA

Авторы продолжили и оценили некоторые современные исследования (SOTA) и коммерческие модели для задачи анализа настроений, машинного понимания. и пары вопросов Quora. Они выбрали платные NLP API от Microsoft, Google и Amazon как выбор для коммерческих моделей и BERT, RoBERTa как выбор для исследовательских моделей. На изображении ниже из статьи показан результат для вышеупомянутых типов тестов для различных тестов на лингвистические способности для задачи Sentiment Classification.

Давайте разберемся в приведенной выше таблице для примеров, обведенных красным цветом -

Авторы проверяют свойство Надежность для всех 5 моделей, добавляя случайные URL-адреса, имя пользователя в твиты и даже вызывая замену одного символа как опечатку. Итак, идеальное ожидание состоит в том, что мнение не изменится (Тест инвариантности), но они обнаружили, что модели имеют процент отказов от 5% до 25% для коммерческих. и 3% –11% для исследовательских моделей, что довольно шокирует, потому что это очень простая проверка устойчивости без явной сложности, но модели запутались.

Авторы тестируют свойство NER для всех 5 моделей, заменяя фактические местоположения другими местоположениями, меняя имя человека и т. Д. Идеальное ожидание заключалось в том, что это не должно влиять на прогнозы и позволяя модели переключать свой прогноз на совсем другой класс. Но к удивлению они обнаружили, что некоторые модели имеют процент отказов до 20%, что означает, что они были точны всего на 80%, и прогнозы не принимаются, если вы даже изменяете имя человека в тексте. Это намек на то, что в обучающих данных, на которых были обучены эти модели, преобладали некоторые общие имена, а модель каким-то образом усвоила некоторую ассоциацию имени и настроения вместо того, чтобы игнорировать это и просто сосредоточиться на лингвистических свойствах и конструкциях, которые вызывают это чувство. Исследовательские модели, такие как RoBERTa, все же показали приличную, если не идеальную производительность.

Автор тестирует свойство Отрицание для всех 5 моделей, отрицая отрицательные, нейтральные и положительные слова в заданном фрагменте текста. И результаты были действительно удивительными, поскольку они обнаружили, что для определенных шаблонов некоторые модели выходят из строя 100%, тогда как почти все из них имеют процент отказов более 30%.

P.S. Я прошу вас потратить как минимум 2 минуты на просмотр других результатов на изображении выше. Я почти уверен, что вы будете шокированы !!

Итак, ясно, что если бы вы заметили, что типы преобразований, которые выбирает автор, довольно просты и просты, без каких-либо дополнительных уровней сложности, платные модели продемонстрировали свои существенные ограничения. Сказав это, похоже, сейчас самое время начать более тщательное тестирование наших моделей машинного обучения с использованием таких фреймворков наряду с регулярным тестовым сплит-тестированием.

Инструмент аннотации

Чтобы облегчить создание тестовых примеров в большом масштабе, авторы CheckList с открытым исходным кодом, включенные с функциями шаблонов и предложениями модели языка масок (например, BERT и RoBERTa) для получения предложения возмущения для любого замаскированного слова и универсальных возмущений, таких как замена символов (имитация опечатки), сокращения, изменения имени и местоположения (для тестов NER) и т. д. Пример шаблона показан ниже -

Sample_Template = «Я {NEGATION} {POS_VERB} {THING}.»

Sample_Test_1 = Еда не понравилась.

Sample_Test_2 = Мне не понравилось блюдо.

Sample_Test_3 = Мне не нравится эта услуга.

так далее…

Они создают очень простой в использовании пользовательский интерфейс, чтобы облегчить людям, не имеющим технических знаний, также создавать масштабные примеры. Обязательно проверьте и другие функции на -



P.S. Я также занимаюсь созданием видеообъяснения с многоязычными субтитрами для этой статьи. Я обновлю это в комментариях, как только он появится! Между тем, у меня уже есть объяснения по многим статьям на моем канале, вы можете проверить их по адресу -



ОБНОВЛЕНО - 02.08.2020

Объяснение видео

Вы также можете ознакомиться с объяснениями других исследовательских работ, которые я написал -

10 популярных алгоритмов извлечения ключевых слов в НЛП

BERT для экстрактивного обобщения текста

Автоматическое извлечение гиперонимных отношений из текста с использованием машинного обучения

Обязательно зачитайте газету, если вы все еще в чем-то запутались. Также скажите «Привет» авторам и оцените их вклад.

Название статьи: За пределами точности: поведенческое тестирование моделей НЛП с помощью контрольного списка

Ссылка на публикацию: https://www.aclweb.org/anthology/2020.acl-main.442.pdf

Код бумаги: https://github.com/marcotcr/checklist

Авторы: Макро Тулио Рибейро, Туншуан Ву, Карлос Гестрин, Самир Сингх

Организация: Microsoft Research, Вашингтонский университет, Калифорнийский университет, Ирвин.

Надеюсь, это короткое и четкое чтение стоило вашего времени. Если вам понравился этот фрагмент содержания, не забудьте хлопнуть и сообщить всем.

Спасибо!