«Способность обобщать невидимые данные лежит в основе машинного обучения».

В основе многих текущих исследований ИИ лежит вопрос о том, как заставить алгоритмы обобщать невидимые данные.

В контексте машинного обучения большинство моделей обучаются и оцениваются на данных в соответствии с предположением i.i.d. (независимым и одинаково распределенным), которое подразумевает, что данные обучения и тестовые данные для данной задачи выбираются из одной и той же распределение. Таким образом, обобщение означает извлечение этого общего базового распределения только из данных поезда.

i.i.d. предположение, однако, часто не срабатывает в реальном мире, где окружающая среда постоянно меняется, а о.о.д. (вне распределения) обучение имеет решающее значение для выживания.

В настоящее время люди гораздо лучше умеют обобщать, чем машины: мы можем быстро распознавать сдвиги в распределении в окружающей среде и «немного учатся», выводя правила из нескольких примеров. Мы можем более гибко адаптировать наши модели вывода к данным, которые отличаются от тех, что мы видели раньше. Для многих классических моделей машинного обучения это неверно: катастрофическое забывание – это распространенная проблема, связанная с явлением, когда модели нейронных сетей внезапно забывают все, чему научились при обучении на новых, невидимых данных.

Обобщение тесно связано с проблемой переобучения и недообучения обучающих данных, где переоснащение относится к чрезмерному объяснению данных путем подгонки слишком большого количества шума к слишком слабому сигналу. . Стандартными способами борьбы с переоснащением являются модели с меньшими параметрами, обрезанные модели и методы регуляризации (отсев, нормы L2 и т. д.). Однако некоторые из этих догадок были поставлены под сомнение такими явлениями, как двойной спуск (эта лента Twitter объясняет двойной спуск и его связь с регуляризацией на простом примере), где модели обобщают хуже, чем модели с меньшей емкостью, потому что они переобучают, но переход к моделям с еще большей емкостью приводит к тому, что они обобщают даже лучше, чем модели с меньшей емкостью.

Интуитивные представления о переоснащении также были поставлены под сомнение из-за производительности обобщения крупномасштабных моделей на основе трансформаторов, которая началась со сверхъестественной способности GPT-3 решать задачи, для которых он не был обучен.

Новый Flamingo от DeepMind идет еще дальше, соединяя язык с моделями зрения, которые могут интегрироваться в широкий спектр комбинированных задач зрения и языка:

Способность представлять знания таким образом, чтобы обобщать задачи, интуитивно кажется гораздо более разумной, чем нейронная сеть, классифицирующая собак и кошек после просмотра миллионов помеченных примеров собак и кошек.

Таким образом, удивительный успех этих моделей ставит интересные вопросы о том, что означает обобщение и как его можно достичь: что именно изучается с помощью этих моделей? На этот вопрос не становится легче ответить с постоянно увеличивающимися размерами моделей, а количество параметров приближается к количеству нейронов в человеческом мозгу. Учитывая их огромные возможности, эти модели просто умным образом запоминают все обучающие данные или есть что-то еще?

Обобщение важным образом взаимодействует с памятью: идея состоит в том, что если мы извлекаем понимание из данных, у нас есть доступ к гораздо более гибкому, сжатому представлению знаний, чем если бы мы просто запоминали их. Это важная задача во многих условиях обучения без учителя, например. распутанное репрезентативное обучение. Таким образом, способность обобщать невидимые данные лежит не только в основе машинного обучения, но и в основе многих определений интеллекта.

По словам Маркуса Хаттера, интеллект во многом похож на сжатие без потерь, и, соответственно, премия Хаттера присуждается за успехи в сжатии текстового файла из первых 1 000 000 000 букв определенного версия английской Википедии. «Вместе со своим коллегой Шейном Леггом они свели определение интеллекта из широкого спектра определений из психологии, машинного обучения и философии в следующую формулу:

Проще говоря, интеллект — это способность агента извлекать ценность из пространства всех окружений, взвешенную по сложность соответствующих сред. Функция сложности Колмогорова используется как мера сложности: это теоретико-информационная мера сложности объекта. Это соответствует кратчайшей строке кода, необходимой для его создания, что, связанное с идеей интеллекта как сжатия, соответствует его оптимально сжатому, эффективному по памяти представлению (я рассматривал подобные идеи в более подробно в моей статье Теория хаоса и вычислительная несводимость). При подгонке шума мы должны запоминать его, потому что в информационно-теоретическом смысле шум некоррелирован и не имеет значимого объяснения и, следовательно, не содержит релевантной информации о прошлом или будущее.

Тем не менее, хотя все, кажется, согласны с тем, что обобщение важно для машинного обучения и каким-то образом связано со сложностью, его по-прежнему трудно измерить, поскольку в этой статье Google собрано более 40 мер, направленных на характеристику сложности и обобщения, с совершенно разными значениями. Результаты.

Вопрос о том, насколько хорошо нейронные сети обобщают, связан с тем, сколько они помнят и сколько они научаются забывать. Недавняя статья Педро Домингоса под названием «Каждая модель, полученная с помощью градиентного спуска, приблизительно является машиной ядра», привносит в эту дискуссию интересный новый взгляд:

«Глубокие сети… на самом деле математически приблизительно эквивалентны машинам ядра, методу обучения, который просто запоминает данные и использует их непосредственно для прогнозирования с помощью функции подобия (ядра). Это значительно повышает интерпретируемость весов глубокой сети, объясняя, что они фактически являются суперпозицией обучающих примеров». — Педро Домингос

По словам Домингоса, обучение в нейронных сетях имеет много математического сходства с методами на основе ядра, такими как машины опорных векторов.

Проще говоря, в методах на основе ядра обучающие данные сначала встраиваются в новое пространство, так называемое векторное пространство признаков, посредством нелинейного преобразования. Характеристики (размеры пространства вложений) могут иметь свойства, которые имеют для нас интуитивное значение (например, насколько счастливый или страшный фильм, или насколько пушистый кот), но в более общем смысле метрика пространства вложений фиксирует сходство между точками данных (например, насколько близки друг к другу два фильма по измерению счастья). После того, как функции встроены, они могут быть линейно разделены или, например. используется напр. для классификации k-ближайших соседей, где тестовые данные сравниваются с k соседними точками данных в пространстве признаков, а классификация выполняется на основе, например. на наиболее распространенной метке этих соседних точек данных (вы можете, например, выяснить, насколько счастлив фильм, посмотрев, насколько счастливы похожие фильмы).

Область глубокого метрического обучения решает аналогичные вопросы: она направлена ​​на поиск вложенных пространств данных, в которых можно легко измерить сходство между образцами (например, сходство между невидимыми изображениями лиц для задачи распознавания лиц). И, с другой стороны, нейронное касательное ядро использовалось для получения функции ядра, соответствующей нейронной сети бесконечной ширины, которая, в свою очередь, оказалась полезной функцией ядра и обеспечила новое теоретическое понимание того, как нейронная сеть сети учатся.

В документе Доминго показана интересная параллель между моделями, полученными с помощью градиентного спуска, и методами на основе ядра: во время обучения данные обучения неявно запоминаются в весах сети. Во время вывода «запомненные» данные поезда и нелинейное преобразование, представленное нейронной сетью, работают вместе, чтобы сравнить контрольную точку с ранее просмотренными данными и классифицировать их по аналогии с методами ядра.

Хотя последствия этого еще не полностью поняты, они могут пролить свет на то, почему нейронные сети, обученные градиентному спуску, боролись с перенаселением. обучение: если они действительно полагаются на обучение запоминанию, то, следуя логике предыдущего обсуждения, они должны хуже обобщать, если их не учат также иногда забывать (т. е. регуляризировать). Следовательно, эта точка зрения может также пролить свет на то, как лучше упорядочить модели для обобщения.

Память связана с хранением и поиском информации во времени, поэтому вопросы памяти также важны в области анализа временных рядов. Рекуррентные нейронные сети (RNN) и сети с краткосрочной памятью (LSTM) — две самые популярные модели для моделирования данных временных рядов.

Классическим эталоном для моделей памяти в последовательностях является задача на сложение: перед моделью ставится задача сложить два числа, которые показаны в моменты времени t1 и t2 и strong>выведите правильную сумму в момент времени T. Следовательно, модель должна сохранять информацию в течение более длительных отрезков времени, что становится все труднее обучать с помощью методов на основе градиента, если время отстает от t1 до t2. увеличены. Это связано с проблемой исчезающего и взрывающегося градиента, которая вызвана повторяющимися применениями одного и того же слоя t раз при обратном распространении через модели последовательностей (для временных рядов из хаотических систем это даже должно произойти). Это часто приводит к тому, что они взрываются или исчезают, делая повторяющиеся модели либо дорогостоящими, либо даже невозможными для обучения определенным задачам.

Трудность сохранения памяти связана с трудностью изучения медленных шкал времени: было показано, что проблемы сложения можно решить, инициируя подпространства медленной динамики в подпространстве RNN (т.н. называется линейным аттрактором), в котором информация может стабильно сохраняться, не подвергаясь влиянию динамики остальной части сети.

LSTM, которые стали наиболее цитируемой архитектурой нейронной сети 20-го века, решают проблему памяти, явно добавляя состояние ячейки, которое сохраняет информацию в течение произвольного промежутка времени, и ворота ввода, вывода и забывания, которые регулируют поток информации в клетка. Следовательно, LSTM лучше обычных RNN в «запоминании» информации на тысячах временных шагов и в решении таких задач, как задача сложения.

Но, как обсуждалось ранее, в этом контексте у памяти могут быть и свои недостатки: она упрощает «переоснащение» информации за счет запоминания ее вместо сжатия за счет понимания. это.

Язык динамических систем — это способ, которым физики говорят о временных явлениях. Динамическое описание мира лежит в основе большинства физических теорий, от теорем Ньютона до уравнения Шрёдингера:

Что характеризует эти описания реальности с помощью дифференциальных уравнений, так это то, что они без памяти. При заданном начальном состоянии и полном описании оператора временной эволюции системы (то есть ее гамильтониана) временная эволюция системы известна до бесконечности (и даже симметрична по отношению к обращению времени, поэтому информация не теряется). Следовательно, в памяти нет необходимости: если описание действительно полное, оно идеально сжато в смысле колмогоровской сложности.

В реконструкции динамических систем, области машинного обучения, связанной с восстановлением динамической системы из временных рядов, модели с памятью могут на самом деле быть вредными, поскольку они рискуют не обобщить базовую систему, найдя оптимальную, описание без памяти , но вместо этого дополняет его, запоминая ложные закономерности в данных поезда. Это постоянная проблема для изучения моделей сложных (динамических) систем, таких как мозг или климат, где обобщение до правильного описания системы, которое фиксирует ее долгосрочное поведение, имеет много важных практических последствий, например. для прогнозирования динамики после переломных моментов. Они могут сыграть большую роль в прогнозировании, например. экстремальные погодные явления или долгосрочные последствия изменения климата. Однако большинство реальных систем зашумлены, хаотичны и наблюдаются лишь частично, поэтому отделение сигнала от шума остается большой проблемой.

Во многих практических приложениях у нас нет полного описания и полных знаний о мире, который мы наблюдаем вокруг себя. Использование памяти, особенно когда более сжатое описание реальности недоступно или невозможно, остается важнейшим ингредиентом для создания практически интеллектуальных систем и определяющей чертой нашего собственного интеллекта. Тем не менее, я думаю, что полезно подумать о том, как взаимодействуют обобщение и память и как это может помочь нам разработать алгоритмы, которые лучше обобщают.