Бритва Оккама, по сути, гласит, что модель должна быть максимально простой, но не проще.
В этом посте мы исследуем принцип бритвы Оккама в практике машинного обучения.
Два вопроса, на которые мы должны ответить:
Что мы имеем в виду, когда говорим, что модель m1 проще, чем m2?
Мы можем рассматривать количество коэффициентов как показатель сложности модели. При сравнении моделей необходимо учитывать количество изученных коэффициентов. Чем меньше, тем проще.
В зависимости от приложения также могут учитываться другие показатели: задержка обучения/вывода, объем памяти, необходимый для обучения/вывода и т. д.
Как узнать, лучше ли модель m1, чем m2?
У Simpler больше шансов оказаться правым. Это направленно правильно, поскольку более сложные модели имеют более высокую вероятность переобучения. Лучший способ сравнить модели — использовать показатели производительности. Ниже мы опишем попарный тест начальной загрузки, чтобы сравнить m1 и m2.
Парный тест Bootstrap:
Терминология:
- метки и прогнозы обозначают истинный массив меток и прогнозов.
- eval_dataset — это тестовый корпус, на котором можно сравнивать m1 и m2.
- основная метрика - пример: prAUC (это может быть любая метрика)
Вывод :
- Сообщайте о сложности модели, сообщая о показателях производительности.
- Используйте парный тест начальной загрузки, чтобы сравнить производительность модели.
- Используйте бритву Оккама в качестве направляющей эвристики при выборе моделей.
Дополнительная литература:
[1] https://en.wikipedia.org/wiki/Оккам_обучение
[2] Обучение на основе данных [http://amlbook.com/]