В моем предыдущем посте я представил структуру для выбора правильных KPI для оценки ваших моделей машинного обучения. При решении проблемы классификации выбранный KPI обычно измеряет частоту ошибок с течением времени в виде точечной оценки (например, точности) или оценки нескольких пороговых значений (например, PRAUC).

В этом посте я коснусь одной из основных проблем во многих проблемах реального мира: как узнать, правильна ваша модель или нет. В моделях контролируемого обучения получение обратной связи о решениях модели имеет решающее значение как для обучения модели, так и для оценки. Но получение такой обратной связи иногда может быть очень сложной задачей или потребовать много ресурсов.

Одна из сильных сторон продукта Riskified Chargeback Guarantee заключается в том, что он имеет «встроенный» цикл обратной связи. Как только мы подтверждаем, что заказ является законным и он оказывается мошенничеством, мы покрываем расходы, понесенные продавцом, поэтому мы быстро получаем обратную связь по всем нашим ложноотрицательным результатам.

Положительные («мошеннические») классификации более проблематичны - если мы отклоняем заказ, мы не можем точно знать, был ли он законным или мошенническим. Это проблематично, поскольку ключевыми показателями эффективности нашей модели являются точность и отзывчивость - оба требуют точной оценки истинных положительных результатов.

Отсутствие хорошей оценки качества наших отклонений затрудняло оценку количества ложных срабатываний и оптимизацию работы наших моделей.

В следующих нескольких разделах я рассмотрю различные типы решений, которые можно использовать для преодоления такого рода проблем, и то, что мы в итоге реализовали.

Решение на основе контрольной группы

В случаях, когда вы получаете лишь частичную обратную связь о решении вашей модели, наиболее простым решением является переопределение решения модели, чтобы вызвать цикл обратной связи. Находясь под угрозой, это означает одобрение заказов, которые наша модель оценивает как мошеннические и, следовательно, отклоняет, что позволяет нам получать отзывы, которые мы обычно не собираем. Прежде чем внедрять это решение, вы должны проверить, возможно ли это с точки зрения продукта, и можете ли вы позволить себе расплачиваться за ошибки.

Важные моменты, которые следует учитывать при выборе решения для контрольной группы:

  1. Случайная выборка: поскольку вы делаете вывод о точности на основе результатов контрольной группы, убедитесь, что популяция контрольной группы и генеральная совокупность имеют одинаковое распределение, или внесите необходимые корректировки в выборку.
  2. Изменения в поведении: реальность «меняется», как только вы начинаете игнорировать решения модели (например, мошенники будут вести себя по-другому, если их попытка мошенничества удалась или нет). В идеале это должно быть смоделировано в интерпретации результатов контрольной группы.
  3. Воздействие: в случаях, когда контрольные группы сопряжены с финансовыми затратами, вы должны убедиться, что вы их оцениваете и отслеживаете. Необходимо создать меры безопасности, чтобы контролировать размер контрольной группы.

Решение на основе тегов

В случаях, когда вы не можете получить обратную связь с помощью контрольной группы, будь то из-за затрат или по другим причинам, можно использовать мнение эксперта. В нашем случае отправка заказа контрольной группе может стоить нам сотни или даже тысячи долларов, в то время как у нас есть собственная команда экспертов по мошенничеству, которая может пометить заказ как мошенничество с незначительной стоимостью. Опять же, необходимо рассмотреть несколько важных вопросов:

Важные моменты, которые следует учитывать при выборе решения на основе тегов:

  1. Случайная выборка: см. Выше.
  2. Разница между экспертами: разные эксперты придерживаются разных мнений - важно инвестировать в их обучение и учитывать несколько тегеров для каждой выборки, чтобы прийти к окончательному выводу, основанному на мнении большинства.
  3. Детализация тегов: рассмотрите задачу тегирования - это верное / неверное решение или шкала достоверности? Предполагая, что вы выбрали шкалу, вам нужно убедиться, что вы нормализовали решения разных экспертов к одному и тому же среднему значению и дисперсии.

Гибридное решение

Подводя итог, в некоторых случаях использование контрольных групп может быть единственным способом выяснить «истинную истину» метрик вашей модели, но иногда может быть очень дорогостоящим. Использование экспертов в предметной области для добавления тегов к решениям моделей может быть значительно дешевле, но гораздо менее точным, поскольку вы не знаете, насколько точен теггер.

Одним из возможных решений, сочетающих оба метода, является моделирование экспертов предметной области с помощью живой контрольной группы. Если у вас есть когорта экспертов, которые в целом согласны друг с другом, вы можете использовать живую контрольную группу для их решений, чтобы правильно взвесить их точность. Это можно сделать единовременно, поскольку мы можем предположить, что их решения не зависят от оценки модели.

После того, как вы определите веса решений экспертов, вы можете попросить их пометить дополнительные образцы, чтобы сгенерировать ключевые показатели эффективности модели.

Ниже приведена диаграмма, показывающая поток гибридной контрольной группы в примере Riskified:

Дальнейшие оптимизации

Подход «двух рук» гибридных контрольных групп позволяет нам оптимизировать каждую модель, чтобы получить наиболее точную оценку ее точности. Чем больше отклонений мы одобряем и помечаем, тем выше наша уверенность в скорости возвратных платежей для каждого типа тегов, и чем больше отклонений мы отмечаем в целом, тем больше у нас уверенности в точности модели.

Найти оптимальный размер выборки для каждой руки (и для каждой модели) нетривиально. Мы использовали метод поиска по сетке, при котором мы периодически меняли размер контрольных групп для каждой руки и для каждой модели (с общим фиксированным бюджетом). Затем мы подтвердили влияние на доверительный интервал для каждого параметра, который мы пытаемся оценить, путем начальной загрузки различных размеров выборки и оценки ключевых показателей эффективности, смещения суммы для каждой модели и балансировки утвержденных и помеченных заказов на основе наших результатов.

Наконец, необходимо учитывать дополнительные факторы, влияющие на точность пометок - например, сумма заказа сильно коррелирует с вероятностью возврата, помеченного как мошеннический, в качестве возвратного платежа. Их также необходимо учитывать и моделировать.

Заключительные слова

Сегодня, когда у нас есть инфраструктура контрольной группы, мы можем легко отслеживать тенденцию к ложному снижению ставок для продавца по сравнению с его аналогами, с течением времени и по продуктам.

Определение ключевых показателей эффективности и их правильное измерение - важная часть разработки любого решения машинного обучения. Получение правильных ярлыков для своих ошибок иногда может быть очень сложной задачей, и наивная контрольная группа не всегда может быть решением. Я надеюсь, что наш опыт поможет вам разработать собственные решения, и хотел бы услышать от вас ваш опыт и идеи!