Общие показатели для оценки моделей обработки естественного языка (NLP)

Вы не сможете обучить хорошую модель, если у вас нет правильной оценочной метрики, и вы не сможете объяснить свою модель, если не понимаете метрику, которую используете. Итак, вот список общих метрик, которые используются для моделей ML и NLP, а также их определения и общие приложения. Мне всегда было трудно запомнить их по диаграммам и матрицам путаницы, поэтому я подумал, что словесное объяснение могло бы сработать лучше.

Точность
Обозначает долю случаев, когда модель делает правильный прогноз по сравнению с общим количеством сделанных ею прогнозов. Лучше всего использовать, когда выходная переменная является категориальной или дискретной. Например, как часто корректен алгоритм классификации настроений.

Точность
Оценивает процент выявленных истинно положительных результатов с учетом всех положительных случаев. Особенно полезно, когда выявление положительных результатов важнее, чем общая точность. Например, при выявлении рака, который распространен в 1% случаев, модель, которая всегда выдает «отрицательный результат», будет точной на 99%, но на 0% точной.

Отзыв
Процент истинных срабатываний по сравнению с комбинированными истинными и ложными срабатываниями. В примере с редким раком, который распространен в 1% случаев, если модель создает полностью случайные прогнозы (50/50), она будет иметь точность 50% (50/100), точность 50% (0,5/1), и 1% отзыва (0,5/50)

Оценка F1
Сочетает в себе точность и полноту, чтобы дать единую метрику — как полноту, так и точность. (2 * Точность * Отзыв) / (Точность + Отзыв). Используется вместе с точностью и полезен в задачах маркировки последовательностей, таких как извлечение сущностей и ответы на вопросы на основе поиска.

AUC
Area Under Curve; Сочетает истинные срабатывания с ложными срабатываниями, поскольку порог для прогнозирования варьируется. Используется для измерения качества модели, независимого от порога прогнозирования, и для поиска оптимального порога прогнозирования для задачи классификации.

MRR
Средний обратный рейтинг. Оцените полученные ответы с учетом их вероятности быть правильными. Среднее обратное значение рангов извлеченных результатов. Активно используется во всех задачах поиска информации, включая поиск статей и поиск в электронной коммерции.

MAP
Средняя средняя точность, рассчитанная для каждого полученного результата. Используется в информационно-поисковых задачах.

RMSE
Среднеквадратическая ошибка — очень распространенный способ зафиксировать производительность модели в задаче прогнозирования реального значения. Хороший способ спросить: «Насколько я далек от ответа?» Вычисляет квадратный корень из среднего квадрата ошибок для каждой точки данных. Используется в численном прогнозировании — температура, цена на фондовом рынке, положение в евклидовом пространстве…

MAPE
Средняя абсолютная ошибка в процентах. Используется, когда выходная переменная является непрерывной переменной и представляет собой среднее значение абсолютной процентной ошибки для каждой точки данных. Часто используется в сочетании с RMSE и для проверки производительности регрессионных моделей.

BLEU
Сыр, вкус которого соответствует звучанию. Кроме того, двуязычная eоценка uнеобходима для изучения. Захватывает количество перекрытий n-грамм между выходным предложением и эталонным истинным предложением. Имеет множество вариантов и в основном используется в задачах машинного перевода. Также был адаптирован для текстовых задач, таких как генерация перефразирования и суммирование.

METEOR
Метрика, основанная на точности, для измерения качества сгенерированного текста. Вроде более надежный BLEU. Позволяет сопоставлять синонимы и слова-основы с эталонным словом. В основном используется в машинном переводе.

ROUGE
Подобно BLEU и METEOR, сравнивает качество сгенерированного текста с справочным. Меры отзыва. В основном используется для задач суммирования, где важно оценить, сколько слов может вспомнить модель (отзыв = % истинных положительных результатов по сравнению с истинными и ложными положительными результатами).

Недоумение
Показывает, насколько запутана модель НЛП, полученная на основе перекрестной энтропии в задаче предсказания следующего слова. Используется для оценки языковых моделей и в задачах создания языка, таких как создание диалогов.

Конечно, вы можете найти гораздо больше, но это довольно хороший список, когда мы говорим о НЛП. Спасибо за прочтение и следите за мной в Твиттере — @SaladZombie

Общие показатели для оценки моделей обработки естественного языка (NLP)

Вопросы по теме