Новый метод оценки для распознавания именованных сущностей (NER)

Объяснение нового исследования

Лучший способ оценить модели распознавания именованных сущностей (NER)

Точность, отзывчивость и F-оценка вас далеко не уедет. Вместо этого используйте эти новые информативные метрики.

Пролог

NER обычно рассматривается как проблема маркировки последовательностей, и ее модели обычно оцениваются с помощью традиционных показателей классификации, таких как точность, отзыв, F-оценка и т. Д. Вы можете прочитать учебник по этой теме в этом посте.

Проблема с традиционными метриками оценки

Эти простые показатели хороши, если вы просто хотите быстро сравнить разные модели, но они действительно непрозрачны и мало что вам говорят. Они ничего не говорят вам о сильных и слабых сторонах модели или о том, какие характеристики данных больше всего влияют на ее эффективность.

Вам остается только гадать, страдает ли модель из-за длинного предложения, или это потому, что существует слишком много (или слишком мало) сущностей, сущности разнесены слишком далеко (или слишком близко), или сущности очень неоднозначны, и Т. Д.

Новая разработка

Чтобы решить эту проблему, исследователи из Университета Карнеги-Меллона и Университета Фудань, Китай, разработали новую методику оценки, которая позволяет решить некоторые из этих проблем. Вы можете прочитать оригинал статьи здесь.

Авторы также выпустили репозиторий с открытым исходным кодом, в котором реализованы концепции, изложенные в этой статье.

Эта статья - моя попытка в упрощенном виде объяснить результаты этой статьи более широкой аудитории. Это никоим образом не является полным и исчерпывающим воспроизведением статьи. Исходная статья богата деталями и нюансами, поэтому обязательно прочтите ее, чтобы узнать больше.

Основная идея

Основная идея в документе - разделить данные на сегменты сущностей на основе атрибутов, таких как длина сущности. , согласованность меток, плотность объектов, длину предложения и т. д., а затем оцените модель для каждого из этих сегментов отдельно.

Это позволяет легко определить факторы, при которых модель работает (или не работает) хорошо.

Давайте углубимся в некоторые из этих деталей.

Атрибуты

Атрибуты - это различные характеристики обучающих примеров, которые могут повлиять на производительность модели. Эти:

1) Локальные атрибуты

Длина объекта: длина строки объекта.
Длина предложения
Плотность OOV: доля слов из словарного запаса в предложении.
Плотность сущностей: количество сущностей в предложении.

2) Агрегированные атрибуты

Согласованность метки токена: это показатель универсальности объекта. Например. в

"Я живу в Нью-Йорке"

«Нью-Йорк» обозначен как «LOC», но в

«Я учусь в Нью-Йоркском университете»

«Нью-Йорк» является частью организации, обозначенной «ORG».

Частота токена: сколько раз токен появляется в наборе данных.
Согласованность метки сущности : то же, что и согласованность метки токена, но рассчитывается для текста сущности, а не для токенов.
Частота объекта : то же, что и частота токена, но рассчитывается для текста объекта, а не для токенов.

Ведро

Для любого из вышеупомянутых атрибутов мы можем разделить набор данных на любое количество сегментов (авторы предпочитают 4 сегмента). Для каждого из этих сегментов производительность модели измеряется ее микро-средним баллом F-1.

После сбора этих разнообразных данных о производительности пора выяснить взаимосвязь между атрибутами и производительностью.

Корреляция между атрибутами и производительностью

Типичный читатель сделает вывод о корреляции между характеристиками модели и значениями атрибутов, используя коэффициент корреляции Пирсона.

Однако авторы делают вывод о корреляции не напрямую между оценками F-1 и значениями атрибутов, а между рангами оценок F-1 и рангами значений атрибутов.

Я предполагаю, что это позволяет авторам создавать более удобные сегменты, которые могут быть не строго в порядке возрастания значений атрибутов.

Для этого авторы используют коэффициент ранговой корреляции Спирмена. Чтобы проверить значимость этих корреляций, они используют критерий Фридмана и знаковый ранговый критерий Вилкоксона в зависимости от ситуации.

Процитируя мудрого человека: Не беспокойся об этом, если не сразу поймешь.

Эмпирические результаты

С помощью этой структуры авторы проводят обширный анализ 12 моделей, 8 атрибутов и 6 наборов данных. В статье очень подробно описаны результаты. Анализ можно условно разделить на 3 типа:

1] Целостный анализ

Этот анализ аналогичен тому, как выполняется традиционный анализ нескольких наборов данных (без детальной разбивки на атрибуты или сегменты). Авторы утверждают, что это не дает четкого представления о решающих факторах производительности.

2] Детальный анализ

Это анализ, который в полной мере использует новые идеи, представленные в документе. После измерения производительности всех моделей во всех сегментах всех наборов данных авторы представляют 2 метода, чтобы понять все результаты.

2.1] Модельный анализ

Здесь авторы говорят о ранговой корреляции Спирмена между производительностью модели (F-оценка) и значениями атрибутов. Авторы делают следующие наблюдения:

Наблюдение 1: Производительность моделей без символов более чувствительна к согласованности надписей.
Наблюдение 2: Влияние длины объекта сильно различается в зависимости от декодера.

2.2] Атрибутный анализ

Здесь авторы обсуждают, как атрибут влияет на NER (независимо от модели). Они делают следующие наблюдения:

Наблюдение 1: Согласованность меток и длина объекта имеют более последовательное влияние на производительность NER.
Наблюдение 2: Частота и длина предложения имеют значение, но это второстепенные факторы.

Авторы также характеризуют сами наборы данных с точки зрения средних значений значений атрибутов (вообще не ссылаясь на какую-либо модель NER). Это дает нам отличный способ оценить характер нового набора данных (который может быть специфическим для конкретного приложения). Такая характеристика может позволить нам выбрать модель осознанным образом (например, если ваш набор данных имеет высокую плотность OOV, вы можете выбрать модель на основе CNN, а не BERT). Следующий график отображает эту характеристику:

3] Промежуточный анализ

Групповой анализ направлен на:

Самодиагностика. Определите сегменты, в которых конкретная модель показывает хорошие / плохие характеристики. Например. BERT показывает лучшие / худшие результаты для сегментов с наибольшей / наименьшей согласованностью этикеток
Сравнительная диагностика. Определите сегменты, в которых 2 модели показывают наибольшую / наименьшую разницу в производительности.

Применение: обоснованное усовершенствование модели.

Используя эти детализированные и интерпретируемые метрики оценки, мы можем принимать обоснованные решения о том, как улучшить производительность модели.

Пример: повышение производительности BERT более чем на 10%

Авторы представляют случай, поскольку BERT и Flair наиболее чувствительны к согласованности меток, добавление большего количества контекста к каждому обучающему примеру позволит существенно улучшить модель.

Чтобы проверить эту гипотезу, они снова тренируют модели, используя несколько предложений в каждом обучающем примере. В результате производительность модели существенно улучшается.

TL;DR

Распознавание именованных сущностей (NER) - это задача маркировки последовательностей в ML.
Модели, выполняющие задачу, традиционно оцениваются с помощью таких классификационных показателей, как точность, отзывчивость, оценка F-1 и т. Д.
Эти традиционные показатели оценки NER не говорят вам, где модель терпит неудачу или какие действия вы можете предпринять для повышения производительности.
В новой исследовательской статье представлена следующая попытка решения этой проблемы:

Определите объяснимые атрибуты данных, такие как плотность сущности, согласованность меток, частота токенов и т. Д.
Разделите набор данных на разные сегменты на основе этих атрибутов.
Оцените модели на каждом из этих ковшей отдельно.

5. Это позволяет нам:

- Узнайте, какие атрибуты данных больше всего влияют на производительность.

- Осознанно выбирайте наиболее подходящую модель для конкретного набора данных.

- Придумайте обоснованные идеи по улучшению модели.

Итак, я надеюсь, что эта статья поможет вам более осмысленно оценить ваши модели NER. Если какая-либо часть статьи не очень ясна или требует дальнейшего обсуждения, пожалуйста, свяжитесь со мной.

Я намерен писать больше таких сообщений, обобщающих новые замечательные научные статьи. Если это тебе нравится, то обязательно следуй за мной сюда.

Спасибо за чтение!