Переобучение — это своего рода концепция, о которой большинство из нас слышали при реализации нескольких алгоритмов машинного обучения. В широком смысле это происходит, когда статистическая модель точно соответствует обучающим данным, но не может хорошо обобщать и, следовательно, плохо работает на тестовых данных.

Достаточно просто?

Что ж, большинство из нас не знает, что эта концепция бессознательно использовалась почти всеми видами в их повседневной жизни на протяжении веков. Не машинное обучение представило нам эту концепцию. Мы «внедряли» эту концепцию в нашу жизнь для нашего блага. Будь то изменение вкуса нескольких продуктов питания в соответствии с нашими собственными предпочтениями или изучение различных вещей, даже когда необходимо понять только основные понятия, переобучение окружает нас повсюду. Эта статья будет своего рода маленьким взглядом на этот мир.

Основная проблема: идолопоклонство данным

Переобучение представляет опасность каждый раз, когда мы имеем дело с шумом или ошибками в измерениях, которые почти всегда присутствуют во всех видах данных. Могут быть ошибки в том, как данные были собраны или в том, как они были представлены. Религиозные тексты также предостерегают своих последователей от идолопоклонства... Будь то поклонение статуям, картинам или другим артефактам нематериальным божествам. Например, в Книге Царств бронзовый змей, сделанный по велению Бога, становится объектом поклонения и воскурения вместо самого Бога.

Следовательно, по сути, переобучение — это своего рода идолопоклонство над данными, результат сосредоточения внимания на том, что мы смогли измерить, а не на том, что имеет значение. Этот разрыв между имеющимися у нас данными и прогнозами, которые нам нужны, присутствует повсюду. Например, принимая важное решение, мы можем только догадываться о том, что нас порадует позже, думая о факторах, важных для нас прямо сейчас. Даже в наших небольших повседневных действиях, таких как написание электронных писем, мы используем собственное чтение текста, чтобы предсказать, что будет у получателя. Таким образом, данные в нашей собственной жизни всегда зашумлены.

Как следствие, рассмотрение все большего числа факторов и приложение дополнительных усилий к их моделированию может привести нас к ошибке оптимизации не для того… (например, вознесение молитв статуям, а не большей силе, стоящей за ними).

Подгонка везде

Вы можете увидеть переоснащение повсюду, как только узнаете об этом.

Например, это может объяснить иронию нашего аппетита. Как получается, что продукты, которые нам нравятся больше всего, обычно считаются вредными для нашего здоровья, даже если вся функция наших вкусовых рецепторов состоит в том, чтобы не дать нам съесть плохую пищу?

Ответ лежит в эволюции, а также в нашем вмешательстве в естественную эволюцию человека.

Вкус — это косвенный показатель здоровья нашего организма. Жиры, сахар и соль являются важными питательными веществами, и тяга к продуктам, содержащим их, была разумной мерой для хорошей диеты. Но постепенно люди получили возможность модифицировать доступные нам продукты, и, следовательно, это отношение к постоянному питанию разрушилось. Теперь мы можем добавлять жиры и сахара в пищу сверх количества, полезного для нас, а затем есть исключительно эти продукты, а не смесь растений, злаков и т. д., которая исторически составляла рацион человека.

И оказывается, чем искуснее мы можем манипулировать едой, тем несовершеннее становится метрический вкус. Таким образом, наше авторитарное отношение становится проклятием, делая нас опасно способными иметь именно то, что мы хотим, даже если мы хотим не совсем того, что нужно.

Даже когда мы идем в спортзал, чтобы избавиться от лишнего веса от всего этого сахара, мы также рискуем «перетренироваться». Некоторые видимые признаки физической подготовки, такие как низкий уровень жира в организме, высокая мышечная масса, легко измерить и они связаны с минимизацией риска сердечных заболеваний. Но они тоже могут быть несовершенными прокси-мерами. Переоснащение сигналов — принятие экстремальной диеты для снижения жировых отложений и прием стероидов для наращивания мышечной массы, возможно, может создать для нас картину хорошего здоровья… но только картину, а не подлинное хорошее здоровье.

Переход XXI века к аналитике в реальном времени только усилил опасность метрик. В интервью с евангелистом цифрового маркетинга в Google он был предупрежден, что для того, чтобы пользователи веб-сайтов видели как можно больше рекламы, естественным образом сводится к попыткам переполнить сайты рекламой. Когда вам платят на основе [цены за тысячу показов], стимулом является выяснить, как показывать максимально возможное количество объявлений на каждой странице и гарантировать, что посетитель увидит максимально возможное количество страниц на сайте. Этот стимул отвлекает внимание от важной сущности, клиента, и направляет его на второстепенную сущность, рекламодателя.

В результате веб-сайт может заработать немного больше денег в краткосрочной перспективе, но переполненные рекламой статьи, медленная загрузка страниц отпугнут читателей в долгосрочной перспективе.

Обнаружение переобучения

Одной из основных проблем, связанных с переоснащением, является его обнаружение. Как мы можем ожидать увидеть разницу между действительно хорошей моделью и моделью с переобучением? Например, в образовательной среде, как мы можем отличить класс, полный студентов, преуспевающих в изучении предмета, и класс, который просто «обучил тесту»?

Разобраться с этими проблемами может быть сложно, но возможно. Одной из таких стратегий обнаружения переобучения, полученных в результате исследований в области машинного обучения, является перекрестная проверка.

В широком смысле перекрестная проверка означает оценку не только того, насколько хорошо модель соответствует данным, которые ей предоставлены, но и того, насколько хорошо она обобщает данные, которые она не видела. Это может включать использование «меньше» данных. Например, если у нас есть десять точек данных, мы можем оставить, скажем, две случайные точки и подогнать наши модели только к остальным восьми точкам. Затем мы брали эти две контрольные точки и использовали их для оценки того, насколько хорошо наши различные функции обобщаются за пределами восьми «тренировочных» точек, которые им были даны.

В школах, например, стандартизированные тесты предлагают ряд преимуществ, в том числе явную экономию за счет масштаба: их можно дешево и быстро оценивать тысячами. Однако наряду с такими тестами школы могли случайным образом оценивать небольшую часть учеников — скажем, одного в классе или одного из ста — используя другой метод оценки, возможно, что-то вроде эссе или устного экзамена. Таким образом, стандартизированные тесты будут обеспечивать немедленную обратную связь, в то время как вторичные данные будут служить для перекрестной проверки: чтобы убедиться, что учащиеся действительно приобретают знания, которые стандартизированный тест предназначен для измерения, а не просто улучшают свои результаты при сдаче тестов.

Борьба с переоснащением путем снижения сложности

Большинство из нас, возможно, знают о термине регуляризация, который представляет собой процесс уменьшения переобучения путем введения штрафных терминов, которые уменьшают сложность модели с помощью некоторых простых алгебраических принципов.

Один из алгоритмов под названием Лассо, открытый специалистом по биостатистике Робертом Тибширани, использует в качестве штрафа суммарный вес различных факторов в модели. Оказывая это понижающее давление на веса факторов, Лассо сводит к нулю как можно больше факторов. В уравнении остаются только факторы, оказывающие большое влияние на результаты… что делает модель достаточно простой, чтобы ее можно было хорошо обобщить даже на тестовом наборе.

Тот же самый принцип проявляется и в природе. Живые организмы получают определенный толчок к простоте почти автоматически из-за ограничений времени, памяти, энергии и внимания. Бремя метаболизма действует как тормоз на сложность организмов, вводя калорийный штраф за чрезмерно сложный механизм.

Нейробиологи также предположили, что мозг пытается свести к минимуму количество нейронов, которые возбуждаются в любой данный момент, реализуя такое же понижающее давление на сложность, как Лассо.

Еще один пример естественной борьбы с переоснащением представляют языки. Сложность наказывается долгой речью и нагрузкой на внимание слушателя:D

Точно так же жизненный совет становится пресловутой мудростью только в том случае, если он достаточно лаконичен и цепляет. А все, что нужно запомнить, должно пройти через неотъемлемое лассо памяти:)

Заключение

Итак, я надеюсь, что теперь вы можете сформировать представление о том, как сама природа делает почти все простым, реализуя те принципы, которые мы, люди, осознали всего за несколько лет. Так что в следующий раз, когда вы будете много думать о какой-то небольшой проблеме… убедитесь, что вы не переоснащаетесь и успешно привносите регуляризацию в свое решение :)

Счастливого обучения!