BERTscore: оценка генерации текста с помощью BERT

Резюме исследовательской работы по машинному обучению

BERTScore – это показатель автоматической оценки, используемый для проверки качества систем генерации текста. В отличие от существующих популярных методов, которые вычисляют синтаксическое сходство на уровне токенов, BERTScore фокусируется на вычислении семантического сходства между токенами ссылки и гипотезы. Автор статьи протестировал его на задачах машинного перевода и подписей к изображениям и обнаружил, что он лучше коррелирует с человеческими суждениями.

Давайте возьмем пример системы обобщения, где задача состоит в том, чтобы обобщить данную книгу, пропустив ее через модель GPT2, и, допустим, модель говорит «вот как я резюмировал», но основная истина была «вот как это должно было быть». подведены итоги».

Для оценки качества сводки, сгенерированной системой, можно использовать существующие системы, такие как метрики ROUGE и BLEU, которые зависят от синтаксического совпадения между гипотезой и референсом, рассматривая униграммы, биграммы и т. д. Но учитывая их ограниченность что означает наличие точного слова в гипотезе и ссылке и невозможность декодировать семантику в этом отношении. Введение BERTScore, где идея состоит в том, чтобы понять значение того, что вы сгенерировали, и что должно было быть сгенерировано, а затем выполнить сравнение.

Как показано на рис. выше, мы берем как эталон (наземная правда), так и кандидат (сгенерированный) и пропускаем их через предварительно обученную модель BERT для создания контекстного встраивания для каждого слова на выходе. Как только у нас есть окончательные вложения для каждого из этих слов, мы выполняем вычисление n-квадратов, вычисляя сходство для каждого из слов по ссылке на каждое из слов в кандидате. Мы находим и выбираем наиболее похожее слово из ссылки на слово-кандидат и вычисляем точность, полноту и f-оценку (гармоническое среднее точности и полноты).

Авторы этой статьи также ввели понятие весов для расчета сходства каждого слова. Они придерживаются весов IDF, которые получают на основе большого количества текстовых данных в автономном режиме. Таким образом, если слово имеет очень высокий вес IDF, то это не очень распространенное слово, которое используется в нескольких документах, поэтому вам может быть полезно сравнить его при вычислении сходства, в отличие от слов с низким IDF (представляющие в основном общеупотребительные слова)

Так что да, это все для этого блога. Я бы посоветовал вам также прочитать статью, подробности которой упомянуты ниже —

⏩ Название статьи: BERTscore: оценка генерации текста с помощью BERT

⏩ Документ: https://arxiv.org/abs/1904.09675

⏩ Автор: Тяньи Чжан, Варша Кишор, Феликс Ву, Килиан К. Вайнбергер, Йоав Арци

⏩ Организация: Корнельский университет, ASAPP Inc

Надеюсь, вам понравилось это читать. Если вы хотите поддержать меня как писателя, рассмотрите возможность подписки стать участником Medium. Всего 5 долларов в месяц, и вы получаете неограниченный доступ к Medium.

BERTscore: оценка генерации текста с помощью BERT

Резюме исследовательской работы по машинному обучению

Вопросы по теме