Хорхе Луис Борхес (1899–1986) был блестящим писателем и одним из самых влиятельных авторов всех времен. Но чему Борхес может научить вас о переобучении?

Фунес памятный

Борхес написал Фунесу воспоминание (первоначально Funes el memorioso) в 1954 году. Этот рассказ родился после того, как автор страдал бессонницей. В этой сказке рассказывается история Иренео Фунеса, страдающего гипермнезией. После несчастного случая во время поездки на лошади Фунес обнаруживает, что он может запомнить абсолютно все: форму облаков в каждый момент дня, положение света в каждом углу дома, то, что он делал поминутно два месяца назад и т. Д. .

В этой сказке Борхес исследует различные темы, касающиеся нескольких аспектов нашей жизни, которые требуют «искусства забывания». Запоминая абсолютно все, Фунес теряет одну из важнейших черт мыслительного процесса: обобщение. Фунес не может понять, как термин «собака» может сгруппировать каждую собаку, если они явно отличаются. Он может легко отличить маленькую черную собаку с блестящими глазами от маленькой черной собаки с красной точкой в ​​левом глазу, но он не может понять, что делает собаку собакой.

Переоснащение или потеря обобщения

Гипермнезия Фунеса - это скорее несчастье, чем подарок. Без обобщения невозможно использовать абстрактное мышление. А без абстрактного мышления Фунес ближе к машине, чем к человеку. Он идет в направлении, противоположном тому, что мы ожидаем получить с помощью машинного обучения.

Переоснащение для машинного обучения то же самое, что гипермнезия для Фунеса. Переоборудованные модели не могут отличить зашумленные наблюдения от базовой модели. Это они не могут обобщать.

На рисунке ниже показаны два двоичных классификатора (черная и зеленая линии). Переоборудованный классификатор (зеленая линия) очень зависит от обучающих данных и, скорее всего, будет иметь низкую производительность при поступлении новых наблюдений.

Как я узнаю, что у меня переобученная модель?
Когда вы наблюдаете гораздо более высокую производительность в своей тренировочной выборке, чем в тестовой.

Тогда как я могу предотвратить переобучение?

  • Рассмотрите достаточно большие наборы данных. Если ваш набор данных слишком мал, ваша модель просто выучит наизусть, игнорируя любые общие правила.
  • Всегда в виду перекрестная проверка.
  • Регуляризация всегда помогает.
  • Ансамбли моделей могут помочь в обобщении.
  • Ранняя остановка. Итерационные алгоритмы (CNN, DNN, RNN и др.) Страдают проблемой локальных минимумов. Своевременная остановка может дать вам лучшие результаты.

Надеюсь, вы подумаете о прочтении запоминающейся сказки Фунеса или любой другой сказки Борхеса. И, надеюсь, вы подумаете о Фунесе, когда найдете свою следующую переоборудованную модель.

Первоначально опубликовано по адресу: https://jmtirado.net/what-can-borges-teach-you-about-overfitting/