Бритва Оккама, измерение VC и теорема об отсутствии бесплатного обеда могут помочь нам задуматься о переоснащении и недообучении в решениях ML.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 100 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Недообучение и переоснащение — повсеместные проблемы в современных решениях для машинного обучения (ML). Обе проблемы связаны со способностью модели машинного обучения формировать соответствующие знания на основе начального набора обучающих примеров. Концептуально недообучение связано с неспособностью алгоритма машинного обучения извлекать достоверные знания из исходных обучающих данных. В отличие от этого, переоснащение связано с моделями, которые создают гипотезы, слишком общие или абстрактные, чтобы привести к практическому результату. Проще говоря, модели с недообучением в некотором роде глупы, а модели с переоснащением склонны к галлюцинациям (воображают вещи, которых не существует) :).

Один из лучших способов количественно оценить склонность модели машинного обучения к переоснащению или недообучению — понять ее возможности. Концептуально емкость представляет собой количество функций, которые модель машинного обучения может выбрать в качестве возможного решения. например, модель линейной регрессии может иметь все полиномы степени 1 формы y = w * x + b в качестве емкости (имеется в виду все потенциальные решения). Емкость — невероятно актуальная концепция в моделях машинного обучения. Технически алгоритм машинного обучения работает лучше всего, когда его мощность пропорциональна сложности его задачи и вводу обучающего набора данных. Модели машинного обучения с низкой емкостью непрактичны, когда дело доходит до решения сложных задач, и, как правило, не подходят. В том же духе модели с более высокой емкостью, чем необходимо, могут быть переоснащены. С этой точки зрения емкость представляет собой меру, с помощью которой мы можем оценить склонность модели к недообучению или переобучению.

Есть несколько методов, которые могут помочь нам количественно оценить мощность моделей машинного обучения. С философско-математической точки зрения есть три теории, которые я считаю невероятно полезными, когда размышляю о сценариях недостаточной или чрезмерной подгонки.

1) Бритва Оккама

Принцип бритвы Оккама — это то, что происходит, когда философы увлекаются машинным обучением :) Истоки этой древней философской теории восходят к где-то между 1287 и 1347 годами, связывая ее с такими философами, как Птолемей. По сути, теория бритвы Оккама утверждает, что если у нас есть конкурирующие гипотезы, объясняющие известные наблюдения, мы должны выбрать самую простую. От Шерлока Холмса до Монка Бритва Оккама была вездесущей в детективах мирового класса, которые часто следуют простейшим и наиболее логичным гипотезам, чтобы раскрыть сложные тайны.

Бритва Оккама — это мудрый философский принцип, которому следует следовать в нашей повседневной жизни, но его применение в машинном обучении в лучшем случае вызывает споры. Более простые гипотезы, безусловно, предпочтительнее с вычислительной точки зрения в мире, где алгоритмы печально известны своей ресурсоемкостью. Кроме того, более простые гипотезы легче обобщить с вычислительной точки зрения. Однако проблема сверхпростых гипотез заключается в том, что они часто становятся слишком абстрактными для моделирования сложных сценариев. В результате модель с достаточно большим обучающим набором и приличным количеством измерений должна выбрать достаточно сложную гипотезу, которая может привести к низкой ошибке обучения. В противном случае будет предложено недообучение.

2) Венчурный капитал

«Бритва Оккама» — хороший принцип экономии, но эти абстрактные идеи напрямую не переводятся в модели машинного обучения, живущие во вселенной чисел. Эта задача была решена основателями статистической теории Вапником и Червонекисом (ВК), которые разработали модель для количественной оценки мощности статистического алгоритма. Этот метод, известный как измерение VC, основан на определении наибольшего числа m, из которого существует тренировочный набор из mразличных x точек, целевая функция машинного обучения может маркировать произвольно.

Измерение VC является одним из краеугольных камней статистического обучения и использовалось в качестве основы для многих интересных теорий. Например, измерение VC помогает объяснить, что разрыв между ошибкой обобщения и ошибкой обучения в модели машинного обучения уменьшается по мере увеличения размера обучающей выборки, но тот же разрыв увеличивается по мере роста емкости модели. Другими словами, модели с большими обучающими наборами с большей вероятностью выберут приблизительно правильную гипотезу, но если потенциальных гипотез слишком много, мы, скорее всего, придем к неправильной.

3) Теорема о бесплатном обеде

Я хотел бы закончить эту статью одним из моих любимых принципов машинного обучения, относящимся к проблеме переобучения и недообучения. Теорема об отсутствии бесплатного обеда утверждает, что в среднем по всем возможным распределениям, генерирующим данные, каждый алгоритм классификации имеет примерно одинаковую частоту ошибок при классификации ранее ненаблюдавшихся точек. Мне нравится думать о теореме «Нет бесплатного обеда» как о математической теории, противостоящей ограничениям алгоритмов машинного обучения, которые заставляют нас обобщать полуабсолютные знания, используя конечный обучающий набор. В логике, например, вывод универсальных правил из конечного набора примеров считается «нелогичным». Для практиков машинного обучения теорема об отсутствии бесплатных обедов — это еще один способ сказать, что ни один алгоритм не лучше, чем другие, учитывая достаточное количество наблюдений. Другими словами, роль модели машинного обучения состоит не в том, чтобы найти универсальную функцию обучения, а в том, чтобы найти гипотезу, которая лучше соответствует целевому сценарию.

Переоснащение и недообучение остаются двумя наиболее серьезными проблемами в приложениях машинного обучения. Такие теории, как измерение венчурного капитала, бритва Оккама и теорема об отсутствии бесплатных обедов, обеспечивают прочную теоретическую основу для анализа причин переоснащения и недообучения в решениях машинного обучения. Понимание и количественная оценка возможностей модели машинного обучения остается фундаментальным шагом к пониманию ее склонности к переоснащению или недообучению.