В последнее время я работал с некоторыми библиотеками AutoML, такими как H2O и auto-sklearn, и обе столкнулись с одной и той же проблемой: ранжирование в таблице лидеров с метрикой, не удовлетворяющей потребностям моего проекта.

Одними из наиболее распространенных сегодня показателей оценки являются показатель точности, auc, auprc, f1 и т. д. Библиотеки часто строятся на основе этих показателей, и некоторые, но не все библиотеки предлагают настраиваемый параметр для указания собственной функции показателей. В этом сообщении в блоге я хотел бы обсудить некоторые преимущества предложения такой пользовательской опции, а также предложить новую метрику оценки, которая может быть во многих реальных бизнес-приложениях.

Пример: используя данные о местоположении игрока во время футбольного матча, исследователь из начинающей компании пытается создать модель, которая отправляет оповещения прямо перед тем, как игрок забьет гол. Эта модель потребовала бы очень высокой запоминаемости, так как в каждом футбольном матче засчитывается всего несколько очков, и зрители не хотели бы пропустить ни одного, если они полагаются на систему оповещения, чтобы отозвать их после перерыва. Немного более низкая точность была бы приемлемой, так как аудитория не сильно потеряет, если будет дано ложное предупреждение, особенно если ложные предупреждения будут даваться только в моменты, которые также будут яркими моментами. Однако слишком низкая точность явно не идеальна для бизнеса, поскольку аудитория потеряет доверие к системе оповещения. Скажем, точность 20% приемлема, все, что выше этого, предпочтительно, но не обязательно, но требуется отзыв более 90%. Как мы собираемся обучать модель, которая учитывает наши требования при оценке?

Я хотел бы предложить новую систему подсчета очков, простое дополнение к расчету f1, учитывающее наши требования к точности и полноте, и я назову ее ограниченной оценкой f1. Счет ограниченной f1 принимает следующие параметры:

  • Нижняя граница точности (lbp)
  • Нижняя граница отзыва (lbr)
  • (Необязательно, по умолчанию == 1) вес оценки точности: отзыва (обозначается pw:rw)

И рассчитывается по:

Интуиция, стоящая за этим, заключается в том, что это версия счета f1 со смещением на границах точности и отзыва. +1 сохраняет оценку не ниже 0, а соответствующие веса точности и веса отзыва масштабируют вверх или вниз значимость улучшения по сравнению с требованием или неудовлетворительной производительности по сравнению с требованием. Используя ограниченную-f1, модель будет учитывать желаемую комбинацию точного отзыва.