Экспертная оценка модели машинного обучения

Отчетность и обзор модели

Мотивация — обзоры кода

Код-ревью — неотъемлемая часть жизненного цикла разработки программного обеспечения. Стандартизированный процесс проверки кода имеет много преимуществ. Он улучшает общее качество кода, уменьшает количество ошибок, помогает в передаче знаний и служит архивом важных технических решений, использованных при изменении кода.
Установление формального процесса рецензирования моделей машинного обучения имеет те же преимущества. Кроме того, это компенсирует отсутствие тщательного тестирования машинного обучения, которое в настоящее время недостаточно развито. В этой статье мы обсудим, как настроить процесс проверки машинного обучения.

Документ — Модельный отчет

В отчете о модели описываются характеристики модели, показатели и анализ оценки. Метрики и аналитические графики лучше всего документировать в виде блокнота.
Функция сравнения для экспериментального и производственного позволяет легко сравнивать производительность модели.

Какой контент просмотреть?

Это во многом зависит от поставленной задачи и контекста.
Обязательные элементы для модельного отчета:

Наборы данных:

Источник наборов данных. Наборы данных не должны иметь значительно более низкие коэффициенты хранения, чем время жизни модели. Политики в отношении наборов данных (юридические положения, положения о пользовательских данных) должны быть связаны с отчетом.
Методология подготовки данных: стратегии выборки, веса, если они используются, и преобразования, используемые для подготовки наборов данных из необработанных источников.
Распределение меток и размер данныхдля наборов обучения, настройки и оценки.

Показатели:

Отчет о метриках качества модели в автономном режиме (точность, производительность) и онлайн (или метрики достоверности) для вашей модели.
Метрики точности должны отражать основные изменения офлайн-метрик и связанные с ними онлайн-улучшения. Показатели производительности должны описывать офлайн-метрики (задержка, флопы, # параметры) и последующее онлайн-влияние (изменение количества запросов в секунду, метрики хранилища). Отчет также должен включать любые другие ключевые показатели задачи (интерпретируемость, справедливость, надежность).
Включите базовую производительность модели/функции.

Глубокое погружение/анализ:

Выделите метрики для разделов, где новая модель работает хорошо, и разделов, где она ухудшилась. Включите реальные примеры и тезис для изменения.
Изменение архитектуры ML / предварительной обработки должно включать мотивацию изменения (литература, отчеты об ошибках и т. д.).
Любые известные предостережения и стратегии смягчения последствий.

Обзоры моделей могут включать другие разделы по решению разработчиков моделей, системных инженеров машинного обучения, специалистов по данным, работающих над этой задачей, и т. д.

Автоматизировать формирование отчетов:

Ручная проверка отчета о модели требует времени и может привести к ошибкам в статистике и показателях принятия решений.
Автоматизация извлечения данных отчета, таких как метрики из экспериментов, анализ производительности модели и источники наборов данных, — отличное начало.
Построитель отчетов также должен иметь широкие возможности настройки (предпочтительно просто блокнот), чтобы его можно было повторно использовать для различных задач.

Основные выводы:

Независимая проверка модели машинного обучения повышает качество модели и ее готовность к производству, а также предотвращает серьезные дефекты.
Стандартизированные шаблоны отчетов для обзоров моделей способствуют внедрению передовых методов машинного обучения в различных функциях, связанных с формированием модели, — продукт, наука о данных, системы и инженерия машинного обучения.
Отчет модели повышает прозрачность и облегчает воспроизводимость результатов.