Ландшафт оценки естественного языка

Введение

Генерация естественного языка (NLG) играет решающую роль в оценке и улучшении качества текста, сгенерированного машиной. По мере того, как системы искусственного интеллекта становятся все более изощренными в создании человекоподобного языка, становится все более важным эффективно оценивать их результаты. Оценка NLG служит важным шагом в понимании сильных и слабых сторон языковых моделей, обеспечивая их точность, согласованность и общую эффективность. Оценивая результаты таких систем, исследователи, разработчики и конечные пользователи могут принимать обоснованные решения, определять области для улучшения и повышать удобство работы пользователей. Некоторые потенциальные причины того, почему оценка сгенерированного языка может быть полезной, связаны со следующими причинами:

Сравнение и сравнительный анализ. Показатели оценки позволяют сравнивать различные системы NLG или версии одной и той же системы. Применяя стандартизированные показатели, разработчики и исследователи могут объективно сравнивать производительность системы и определять потенциальные области для улучшения. Они также могут служить ориентирами, по которым будут оцениваться будущие системы.

Пригодность для реальных приложений. Они помогают оценить пригодность систем NLG для конкретных реальных приложений или доменов. Оценивая производительность системы по соответствующим показателям, заинтересованные стороны могут определить, соответствует ли созданный язык требуемым стандартам, нормам или нормативным требованиям.

Этические соображения. NLG может помочь в решении этических соображений в системах машинного обучения. Они могут помочь в определении таких факторов, как справедливость, предвзятость, инклюзивность или соответствие этическим нормам. Метрики оценки помогают гарантировать, что язык системы NLG будет уважительным, беспристрастным и соответствует общественным ценностям.

Подходы к оценке

При оценке систем NLG можно использовать различные подходы для оценки их производительности и эффективности. К ним относятся внутренняя оценка, внешняя оценка, сравнительная оценка, оценка пользователем, автоматическая оценка, оценка человеком и несколько гибридных подходов. Однако из них внутреннее и внешнее являются двумя наиболее важными категориями, и мы будем изучать их подробно.

Внутренняя оценка

Этот тип оценки фокусируется на оценке качества сгенерированного языка независимо от любого нижестоящего приложения или задачи. Он исследует лингвистические свойства, такие как беглость, связность, разнообразие и грамматическая правильность.

Вот некоторые общие показатели внутренней оценки:

Точность: основная метрика, используемая в задачах классификации. Он измеряет долю правильно классифицированных экземпляров от общего числа экземпляров. Он вычисляется путем деления количества правильно предсказанных экземпляров на общее количество экземпляров.

Точность и полнота. Точность и полноценность — это часто используемые показатели в задачах поиска информации и бинарной классификации. Точность измеряет долю правильно предсказанных положительных случаев от всех предсказанных положительных случаев, а отзыв измеряет долю правильно предсказанных положительных случаев от всех фактических положительных случаев.

Оценка F1. Оценка F1 – это среднее гармоническое точности и полноты. Он представляет собой сбалансированный показатель, который сочетает точность и полноту в одном показателе. Это особенно полезно, когда набор данных несбалансирован.

Среднеквадратичная ошибка (MSE): MSE – широко используемый показатель в задачах регрессии. Он измеряет среднеквадратичную разницу между прогнозируемыми и фактическими значениями. Мера того, насколько хорошо модель соответствует данным, с меньшими значениями, указывающими на лучшую производительность, может быть оценена с помощью этой метрики.

Недоумение. Недоумение модели – это показатель, используемый для оценки производительности языковых моделей. Он количественно определяет, насколько хорошо языковая модель предсказывает последовательность слов или текста с учетом контекста предшествующих слов. Меньший показатель недоумения указывает на то, что языковая модель более надежна и точна в предсказании следующего слова в последовательности.

Чтобы узнать больше об этой конкретной метрике, вы можете обратиться к следующей статье:

Интуиция недоумения (и вывод)
Никогда больше не смущайтесь из-за недоумения.towardsdatascience.com

Внешняя оценка

Внешняя оценка измеряет производительность системы NLG в рамках конкретного приложения или контекста задачи. Он оценивает, насколько хорошо сгенерированный язык способствует эффективности и успеху конкретной задачи, учитывая такие факторы, как релевантность, удовлетворенность пользователей и специфические для задачи показатели.

Некоторые общие внешние показатели оценки включают в себя:

Оценка человеком. Оценка человеком включает в себя сбор суждений и оценок от людей-оценщиков. Это можно сделать с помощью опросов, исследований пользователей или краудсорсинга на платформах. Оценщики-люди оценивают качество, релевантность, беглость и общее удовлетворение сгенерированного текста на основе их субъективного восприятия.

ROUGE (дополнительное исследование, ориентированное на припоминание для оценки Gisting): ROUGE – это набор показателей, обычно используемых для оценки систем суммирования текста. Он измеряет сходство между сгенерированной сводкой и одной или несколькими справочными сводками. ROUGE оценивает такие аспекты, как перекрытие контента, запоминание n-грамм и другие показатели качества сводки.
METEOR (Метрика для оценки перевода с явным порядком): METEOR — это метрика, изначально разработанная для оценки машинного перевода, но ее можно применять и к задачам NLG. Он учитывает различные аспекты сгенерированного текста, такие как точность, полнота, выделение корней, синонимия и порядок слов. METEOR сравнивает сгенерированный вывод с одним или несколькими справочными текстами. Чтобы узнать больше об этом показателе, вы можете обратиться к этой статье Википедии:

МЕТЕОР — Википедия
Из Википедии бесплатная энциклопедия МЕТЕОР (Метрика для оценки перевода с явным упорядочением) — это метрика…en.wikipedia.org

BLEU (дублер двуязычной оценки). Хотя BLEU в первую очередь считается внутренней метрикой, ее также можно адаптировать для внешней оценки. В NLG BLEU можно использовать для измерения качества сгенерированного текста, сравнивая его с человеческими эталонными текстами. Он оценивает сходство в перекрытии n-грамм между сгенерированным текстом и ссылками. Для более глубокого понимания этого показателя вы можете обратиться к следующей статье:

BLEU — исследование двуязычной оценки
Пошаговый подход к пониманию BLEU, метрика для понимания эффективности машинного перевода (MT)towardsdatascience.com

Отзывы и рейтинги пользователей. Сбор отзывов и рейтингов пользователей – ценный внешний подход к оценке. Субъективные мнения, рейтинги или обзоры пользователей о системе NLG могут дать представление о ее производительности, удобстве использования и общем взаимодействии с пользователем.

Задачи

Субъективность и изменчивость. NLG часто включает в себя творческие аспекты, и то, что может считаться приемлемым или высококачественным результатом, может варьироваться в зависимости от контекста, домена и субъективного опыта. Без золотого стандарта разные оценщики могут иметь разные интерпретации или ожидания, что приводит к субъективным суждениям и изменчивости результатов оценки.
Зависимость от контекста. При оценке выходных данных в этой области необходимо учитывать контекст, в котором создается язык. Без золотого стандарта, который отражает конкретный контекст или желаемые результаты, становится сложно оценить, является ли созданный язык подходящим, релевантным или соответствующим намеченной цели.
Разнообразие выходных данных. Системы NLG предназначены для получения разнообразных выходных данных, которые могут различаться по структуре, стилю или содержанию. Без золотого стандарта становится сложно определить один идеальный вывод для каждого ввода или сравнить сгенерированный системой языкe с конкретным заранее заданным эталоном.
Развитие языка и пользовательских настроек. Язык со временем развивается, и пользовательские настройки могут меняться. Золотой стандарт может не отражать самые современные способы использования языка или учитывать меняющиеся ожидания пользователей, что делает его менее эффективным при оценке систем NLG, разработанных для современных приложений.
Специфика приложений и доменов: системы NLG обслуживают различные приложения и домены, каждое из которых имеет свои особые требования и критерии оценки. Единый золотой стандарт может неадекватно отражать нюансы и тонкости различных областей, что ограничивает его применимость и актуальность при оценке различных систем NLG.

Заключение

В этой статье мы подробно рассмотрели необходимость метрик оценки для систем генерации языка, а также описалидва преобладающих типа методологий оценки: внутреннюю, а также внешнюю. Кроме того, мы рассмотрели некоторые проблемы, возникшие при оценке этих систем, что, в свою очередь, может помочь нам выбрать правильную метрику для нашего варианта использования.