Оценка показателей

Оценка метрик

В практических сценариях часто наблюдается, что модель работает хорошо во время автономной оценки, но не демонстрирует тот же уровень производительности при развертывании в производственной среде. Следовательно, крайне важно оценить производительность модели в производственной среде. как оффлайн, так и онлайн настройки.

Офлайн-метрики

На этапе автономного обучения и оценки для оценки качества соответствия модели обычно используются различные показатели, такие как MAE и R2. Как только модель продемонстрирует улучшение на основе этих показателей, следующим шагом будет переход к промежуточной или «песочнице» для тестирования с небольшой частью реального трафика.

Онлайн-метрики

На этапе подготовки измеряются конкретные показатели, такие как доход и рейтинг кликов, чтобы оценить эффективность модели в рекомендации соответствующего контента пользователям. Эта оценка распространяется и на влияние на бизнес-показатели. Если показатели, связанные с доходом, постоянно демонстрируют улучшение, модель может постепенно подвергаться воздействию большей части реального трафика. В конце концов, когда появится достаточно доказательств, указывающих на улучшение показателей дохода, новые модели смогут заменить существующие производственные модели. Например, A/B-тестирование.

На диаграмме показан метод распределения трафика между различными моделями в производственной среде. В действительности может существовать несколько моделей, потенциально насчитывающих десятки, причем каждая модель получает реальный трафик для обслуживания онлайн-запросов. Этот подход служит средством проверки того, эффективно ли модель генерирует подъем в производственной среде.