Что аргентинский писатель и венгерский математик могут рассказать нам о машинном обучении ...

Некоторые прекрасные идеи об интеллекте и их отношении к современному машинному обучению.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
(Основные концепции машинного обучения + новаторские исследовательские статьи и основы + новости и тенденции в области ИИ) x 5 минут, 3 раза в неделю =… thesequence.substack. com

Переоснащение и недостаточное оснащение - две самые большие проблемы в современных решениях для глубокого обучения. Мне часто нравится сравнивать переоснащение глубокого обучения с человеческими галлюцинациями, поскольку первое происходит, когда алгоритмы начинают выявлять несуществующие шаблоны в наборах данных. Несмотря на свою важность, не существует простого решения проблемы переобучения, и приложениям глубокого обучения часто приходится использовать методы, очень специфичные для отдельных алгоритмов, чтобы избежать переобучения поведения. Эта проблема становится еще страшнее, если учесть, что люди также невероятно быстро переобучаются. Только подумайте, сколько стереотипов вы использовали за последнюю неделю. Да, знаю….

Несомненно, наши галлюцинации или иллюзии достоверности присутствуют где-то в наборах данных, используемых при обучении алгоритмов глубокого обучения, что создает еще более хаотичную картину. Интуитивно мы думаем о данных при работе над алгоритмами глубокого обучения, но есть еще один не менее важный и часто забываемый элемент моделей глубокого обучения: знания. В контексте алгоритмов глубокого обучения данные часто представляются как постоянные записи в одной или нескольких базах данных, тогда как знания обычно представлены как логические правила, которые можно проверить в данных. Роль моделей глубокого обучения заключается в том, чтобы вывести правила, которые можно применить к новым наборам данных в том же домене. К сожалению для агентов глубокого обучения, мощные вычислительные возможности не являются прямым ответом на накопление знаний, и происходит переоснащение.

Мой любимый способ объяснить переобучение - это использовать рассказ великого аргентинского писателя Хорхе Луиса Борхеса.

Борхес и переоснащение глубокого обучения

Хорхе Луис Борхес считается одним из самых ярких латиноамериканских писателей и одним из моих любимых авторов в подростковом возрасте. В своем рассказе «Фунес воспоминательный» Борхес рассказывает историю Фунеса, молодого человека с потрясающей памятью. Фунес может вспомнить точные детали, которые он видит, например, форму облаков в небе вчера в 15:45. Однако Фунеса мучает неумение обобщить визуальную информацию в знания. Персонаж Борхеса регулярно удивляется собственному имиджу каждый раз, когда он видит себя в ошибке глубокого обучения, и не может сдержать глубокого обучения, если собака, увиденная сбоку в 15:14, является той же собакой, которую видели сзади в 15:15. Для Фунеса две вещи одинаковы, только если каждая деталь идентична в них обоих.

История Фунеса - отличная метафора, объясняющая, что знание - это не только обработка больших объемов информации, но и общие правила, игнорирующие некоторые детали данных. Как и у Фунеса, алгоритмы глубокого обучения обладают практически неограниченной способностью обрабатывать информацию. Однако такая вычислительная мощность является прямой причиной переобучения, поскольку агенты глубокого обучения могут вывести миллионы шаблонов в источники данных, не неся при этом больших затрат.

То, что вы не видите, так же важно, как то, что вы видите

Во время Второй мировой войны Пентагон собрал команду самых известных математиков страны для разработки статистических моделей, которые могли бы помочь союзным войскам во время войны. Одно из первых заданий заключалось в оценке уровня дополнительной защиты, которая должна быть добавлена к самолетам США, чтобы выжить в боях с немецкими военно-воздушными силами. Подобно хорошим статистикам, команда собирала ущерб, нанесенный самолетам, возвращавшимся после столкновений с нацистами.

Для каждого самолета математики вычислили количество пулевых отверстий в различных частях самолета (двери, крылья, двигатель и т. Д.). Затем группа приступила к выработке рекомендаций относительно того, какие участки самолетов должны иметь дополнительную защиту. Неудивительно, что подавляющее большинство рекомендаций было сосредоточено на областях, в которых было больше пулевых отверстий, если предположить, что это были районы, на которые нацелились немецкие самолеты. В группе было одно исключение, молодой статистик по имени Абрахам Вальд, который рекомендовал сосредоточить дополнительную защиту в тех областях, где не было обнаружено никаких повреждений в инвентаризованных самолетах. Почему? очень просто, молодой математик утверждал, что входной набор данных (самолеты) включал только самолеты, уцелевшие в боях с немцами. Хотя эти самолеты были серьезными, ущерб, нанесенный этими самолетами, не был настолько катастрофическим, что они не могли вернуться на базу. поэтому он пришел к выводу, что самолеты, которые не вернулись, скорее всего, пострадали от ударов в других районах. Очень умно, да?

В предыдущей истории есть несколько очень важных уроков по борьбе с переоснащением техник глубокого обучения. Единственный способ подтвердить новые знания - применить их к невидимым наборам данных, и во многих случаях скрытые наборы данных так же важны, как и существующие. В когнитивной психологии это известно как «обучение по бездействию». Как известно многим специалистам по данным, «одного успешного эксперимента по глубокому обучению недостаточно, чтобы доказать, что вы правы, - определенно достаточно, чтобы доказать, что вы неправы».

Переоснащение и недостаточное оснащение в моделях глубокого обучения

Тупой или галлюцинации

Такие проблемы, как переобучение и недообучение, связаны со способностью модели машинного обучения формировать соответствующие знания на основе начального набора обучающих примеров. Концептуально недостаточная подгонка связана с неспособностью алгоритма машинного обучения вывести достоверные знания из исходных данных обучения. Напротив, переобучение связано с моделью, которая создает гипотезы, которые слишком общие или абстрактные, чтобы приводить к практическим результатам. Проще говоря, модели с недостаточной подгонкой выглядят как-то тупо, в то время как модели с переобучением имеют тенденцию вызывать галлюцинации (представляйте вещи, которых не существует) :).

Понимание емкости модели

Давайте попробуем сформулировать простую методологию понимания переобучения и недостаточного приспособления в контексте алгоритмов машинного обучения.

Типичный сценарий машинного обучения начинается с начального набора данных, который мы используем для обучения и тестирования производительности алгоритма. Статистическая мудрость предполагает, что мы используем 80% набора данных для обучения модели, а оставшиеся 20% - для ее тестирования. Во время фазы обучения выходная модель будет вызывать определенное отклонение от данных обучения, которое мы часто называем ошибкой обучения. Точно так же отклонение, возникающее во время фазы тестирования, называется ошибкой теста. С этой точки зрения о производительности модели машинного обучения можно судить по ее способности выполнять две фундаментальные задачи:

1 - Уменьшите ошибку обучения

2 - Сократите разрыв между ошибками обучения и тестирования

Эти два простых правила могут помочь нам понять концепции переобучения и недостатка. В основном, недостаточная подгонка происходит, когда модель не соответствует правилу № 1 и не может получить достаточно низкую ошибку из обучающего набора. Затем происходит переоснащение, когда модель не соответствует правилу № 2 и разрыв между ошибками теста и обучения слишком велик. Понимаете? два простых правила, которые помогут нам количественно оценить уровни переобучения и недостаточного соответствия алгоритмов машинного обучения.

Еще одна очень важная концепция, которая чрезвычайно помогает специалистам по машинному обучению справляться с недостаточным и переобучением, - это понятие емкости. Концептуально емкость представляет собой количество функций, которые модель машинного обучения может выбрать в качестве возможного решения. например, модель линейной регрессии может иметь все многочлены степени 1 вида y = w * x + b в качестве Емкости (что означает все потенциальные решения).

Емкость - это невероятно актуальная концепция моделей машинного обучения. Технически алгоритмы машинного обучения работают лучше всего, когда они имеют емкость, пропорциональную сложности задачи и входу набора обучающих данных. Модели машинного обучения с низкой пропускной способностью непрактичны, когда речь идет о решении сложных задач, и, как правило, не подходят. Аналогичным образом, модели с большей емкостью, чем необходимо, быстро переоснащаются. С этой точки зрения емкость представляет собой меру, с помощью которой мы можем оценить склонность модели к недостаточному или избыточному соответствию.

Бритва Оккама

Принцип бритвы Оккама - это то, что происходит, когда философы вовлекаются в машинное обучение :) Истоки этой древней философской теории восходят где-то между 1287 и 1347 годами, связывая ее с философами, такими как Птолемей. По сути, теория бритвы Оккама утверждает, что если у нас есть конкурирующая гипотеза, объясняющая известные наблюдения, мы должны выбрать самую простую. От Шерлока Холмса до Монаха бритва Оккама была вездесуща в детективах мирового класса, которые часто следуют простейшим и наиболее логичным гипотезам, чтобы раскрыть сложные тайны.

Бритва Оккама - это мудрый философский принцип, которому нужно следовать в нашей повседневной жизни, но его применение в машинном обучении в лучшем случае вызывает споры. Более простые гипотезы, безусловно, предпочтительнее с вычислительной точки зрения в мире, в котором алгоритмы печально известны своей затратностью ресурсов. Кроме того, более простые гипотезы легче обобщить с помощью вычислений. Однако проблема с сверхпростыми гипотезами заключается в том, что они часто приводят к слишком абстрактным результатам для моделирования сложных сценариев. В результате модель с достаточно большим обучающим набором и большим количеством измерений должна выбирать достаточно сложную гипотезу, которая может дать небольшую ошибку обучения. Иначе будет подсказка недообучить.

VC Dimension

Бритва Оккама - прекрасный принцип экономии, но эти абстрактные идеалы не находят прямого воплощения в моделях машинного обучения, которые живут во вселенной чисел. К этой проблеме обратились основатели статистической теории Вапник и Червонекис (ВК), которые разработали модель для количественной оценки емкости статистического алгоритма. Этот метод, известный как измерение VC, основан на определении наибольшего числа m, из которого существует обучающий набор из m различных x точек, которые целевая функция машинного обучения может обозначать произвольно.

Измерение VC является одним из краеугольных камней статистического обучения и использовалось в качестве основы для многих интересных теорий. Например, измерение VC помогает объяснить, что разрыв между ошибкой обобщения и ошибкой обучения в модели машинного обучения уменьшается по мере увеличения размера обучающей выборки, но тот же разрыв увеличивается по мере увеличения емкости модели. Другими словами, модели с большими обучающими наборами с большей вероятностью выберут приблизительно правильную гипотезу, но если существует слишком много потенциальных гипотез, мы, скорее всего, в конечном итоге примем неверную.

Теорема о запрете бесплатного обеда

Я хотел бы закончить эту статью одним из моих любимых принципов машинного обучения, относящимся к проблеме переобучения-недообучения. Теорема о запрете бесплатного обеда утверждает, что при усреднении по всем возможным распределениям, генерирующим данные, каждый алгоритм классификации имеет примерно одинаковую частоту ошибок при классификации ранее ненаблюдаемых точек. Мне нравится думать о теореме о запрете бесплатного обеда как о математической контртеории ограничения алгоритмов машинного обучения, которые заставляют нас обобщать полуабсолютные знания с использованием конечного обучающего набора. В логике, например, вывод универсальных правил из конечного набора примеров считается «нелогичным». Для практиков машинного обучения теорема о запрете бесплатного обеда - это еще один способ заявить, что ни один алгоритм не лучше других при наличии достаточного количества наблюдений. Другими словами, роль модели машинного обучения состоит не в том, чтобы найти универсальную функцию обучения, а, скорее, в поиске гипотезы, которая лучше соответствует целевому сценарию.