Бритва Оккама, по сути, гласит, что модель должна быть максимально простой, но не проще.

В этом посте мы исследуем принцип бритвы Оккама в практике машинного обучения.
Два вопроса, на которые мы должны ответить:

Что мы имеем в виду, когда говорим, что модель m1 проще, чем m2?

Мы можем рассматривать количество коэффициентов как показатель сложности модели. При сравнении моделей необходимо учитывать количество изученных коэффициентов. Чем меньше, тем проще.

В зависимости от приложения также могут учитываться другие показатели: задержка обучения/вывода, объем памяти, необходимый для обучения/вывода и т. д.

Как узнать, лучше ли модель m1, чем m2?

У Simpler больше шансов оказаться правым. Это направленно правильно, поскольку более сложные модели имеют более высокую вероятность переобучения. Лучший способ сравнить модели — использовать показатели производительности. Ниже мы опишем попарный тест начальной загрузки, чтобы сравнить m1 и m2.

Парный тест Bootstrap:

Терминология:

  • метки и прогнозы обозначают истинный массив меток и прогнозов.
  • eval_dataset — это тестовый корпус, на котором можно сравнивать m1 и m2.
  • основная метрика - пример: prAUC (это может быть любая метрика)

Вывод :

  • Сообщайте о сложности модели, сообщая о показателях производительности.
  • Используйте парный тест начальной загрузки, чтобы сравнить производительность модели.
  • Используйте бритву Оккама в качестве направляющей эвристики при выборе моделей.

Дополнительная литература:

[1] https://en.wikipedia.org/wiki/Оккам_обучение

[2] Обучение на основе данных [http://amlbook.com/]