В этом году мне посчастливилось присутствовать на Международной конференции по обучению репрезентации (ICLR), проходившей в Кигали, Руанда. У меня была возможность ознакомиться с новейшими исследованиями, пообщаться с коллегами-профессионалами и проникнуться коллективной мудростью сообщества ИИ.

В этой серии блогов я хотел бы поделиться четырьмя вещами, которые должен знать каждый инженер по машинному обучению. Во-первых, в этом сообщении блога будет обсуждаться общая концепция Обучения репрезентации, а следующие три сообщения посвящены трем статьям, которые мне удалось обнаружить на ICLR в этом году:

  • Что такое обучение представлению? Курс повышения квалификации или введение, в зависимости от ваших знаний, чтобы подготовить почву для будущих статей.
    https://medium.com/radix-ai-blog /representation-learning-breakthroughs-what-is-representation-learning-5dda2e2fed2e
  • Слияние токенов: ваш ViT, но быстрее: Мы рассмотрим, как это усовершенствование позволяет более эффективно использовать скрытые представления, имеющиеся в Vision Transformers (ViT), делая их существенно быстрее.
    https: //medium.com/radix-ai-blog/representation-learning-breakthroughs-token-merging-your-vit-but-faster-e3f88f25d6d1
  • Имейте в виду пул: CNN могут превышать размер входных данных: Основной момент недооцененной ловушки в сверточных нейронных сетях (CNN), где они смещаются из-за входного размера изображений, и подход, как ее избежать .
  • Нет причин для отсутствия контроля, улучшенное обобщение в контролируемых моделях: Демонстрация использования обучения представлению для создания более надежных и общих моделей, обучаемых на контролируемых задачах.

Целью каждого поста является ознакомление вас с опытом ICLR 2023, предоставляя как практическое применение, так и пищу для размышлений, пока мы вместе ориентируемся в захватывающем, постоянно развивающемся ландшафте искусственного интеллекта. Я надеюсь, что вы узнаете что-то новое в каждом разделе этого сообщения в блоге и что исследование покажется вам интересным. Я, конечно, так и сделал! Давайте углубимся в это.

Что такое обучение представлениям?

Обучение представлениям — это метод обучения модели машинного обучения для автоматического обнаружения и изучения наиболее полезных представлений входных данных. Эти представления, часто известные как «функции», представляют собой внутренние состояния модели, которые эффективно суммируют входные данные, что помогает алгоритму лучше понять основные закономерности этих данных.

Обучение представлению знаменует собой значительный отход от традиционного ручного проектирования функций: вместо этого модели доверяется автоматическая переработка сложных и обильных входных данных в более простые и значимые формы. Этот подход особенно эффективен при работе со сложными типами данных, такими как изображения или текст, где ручная идентификация соответствующих функций становится сложной задачей. Автономно идентифицируя и кодируя эти шаблоны, модель упрощает данные и гарантирует сохранение важной информации. Подводя итог, можно сказать, что обучение представлению дает машинам возможность автономно захватывать и конденсировать информацию, хранящуюся в больших наборах данных, делая последующие шаги в машинном обучении более информативными и эффективными.

От ручной работы к автоматизированной: сдвиг в разработке функций

На заре машинного обучения разработка функций была похожа на лепку вручную. Инженерам требовалось вручную идентифицировать, извлекать и создавать функции на основе необработанных данных, и этот процесс во многом зависел от опыта и интуиции в предметной области. Представьте себе, что вы пытаетесь предсказать цены на автомобили. Помимо очевидных особенностей, таких как марка, модель и пробег, можно было бы предположить: имеет ли значение цвет? Или месяц продажи? Этот процесс был утомительным и зачастую ограничительным, ограниченным пределами человеческого понимания.

Затем появилось обучение представлению — революционный подход, который позволяет модели узнать, какие функции являются наиболее информативными. Это можно сделать и без конкретной задачи («что такое машина») или с учетом конкретной задачи («цена, наверное, будет иметь значение»). Таким образом, хотя традиционная разработка функций заложила основу, обучение представлению оптимизирует и углубляет наше исследование данных, демонстрируя новую эру эффективности и адаптируемости.

Самоконтролируемое обучение: автоэнкодеры и пространство внедрения

Обучение с самоконтролем, разновидность обучения без учителя, является мощным способом изучения представлений данных. Среди популярных подходов в этой категории — автоэнкодер. Автоэнкодер — это тип нейронной сети, которая учится кодировать входные данные в более низкомерную и, следовательно, более компактную форму. Затем сеть использует эту закодированную форму для восстановления исходного ввода. Процесс кодирования обнаруживает и извлекает важные функции данных, а процесс декодирования гарантирует, что извлеченные функции являются репрезентативными для исходных данных.

Важнейшей концепцией, которую необходимо усвоить при самостоятельном обучении, является идея встроенного пространства. Это пространство представляет функции или характеристики, изученные автоэнкодером (или любой другой моделью с самоконтролем). В эффективно обученной модели похожие экземпляры данных будут находиться близко друг к другу в этом пространстве, образуя кластеры. Например, модель, обученная на наборе данных изображений, может формировать отдельные кластеры для разных категорий изображений, таких как птицы, одежда или еда. Расстояние и направление между этими кластерами часто могут дать ценную информацию о взаимосвязях между различными категориями данных.

Это пространство для встраивания можно использовать различными способами. Например, его можно использовать для исследования данных, обнаружения аномалий или в качестве этапа предварительной обработки для других задач машинного обучения. Идея создания выразительного и полезного пространства для внедрения лежит в основе самостоятельного обучения, и это одна из причин, почему этот подход стал настолько распространенным в современных исследованиях и практике машинного обучения.

Скрытые представления в контролируемом обучении

Хотя мы сосредоточились на самоконтролируемом обучении, важно отметить, что концепция репрезентативного обучения распространяется и на контролируемые модели. Классическим примером является глубокая сверточная нейронная сеть (CNN), обученная классификации изображений. По мере углубления сети каждый последующий уровень изучает все более абстрактные представления входных данных.

Учтите следующее: на ранних уровнях CNN сеть может представлять простые функции, такие как края и цвета. По мере того, как мы продвигаемся глубже, эти элементы сливаются в изображения более сложных форм и узоров. К тому времени, когда мы доходим до последних слоев, представления настолько абстрагируются, что позволяют различать сложные категории, такие как разные породы собак или разные типы транспортных средств. По сути, чем глубже модель, тем более абстрактно (и часто более полезно) ее представление.

Сила самоконтролируемых репрезентаций: взгляд на DINO

Модель DINO (дистилляция знаний без ярлыков) — относительно недавнее достижение в области самостоятельного обучения. Это представляет собой ключевое событие в нашем понимании уникальных преимуществ, которые может обеспечить самообучение, особенно применительно к преобразователям зрения (ViT).

В модели DINO Vision Transformer обучается методом самоконтроля. Что отличает DINO, так это его способность создавать высоковыразительные элементы, несущие явную информацию о семантической сегментации изображения. Это свойство не проявляется столь явно ни в контролируемых ViT, ни в сверточных сетях (ConvNets). Интересно, что эти изученные функции также служат отличными классификаторами k-NN, достигая значительной точности в ImageNet даже с небольшим Vision Transformer. Этот вывод предполагает, что представления, полученные с помощью методов самоконтроля, таких как DINO, могут быть более выразительными и, потенциально, более полезными для задач классификации, чем те, которые изучаются исключительно контролируемым способом.

Чтобы проиллюстрировать это, рассмотрим параллельное сравнение изображения ниже, на котором показаны изученные представления модели с самоконтролем, такой как DINO, и модели контролируемой классификации ViT. Представления, изученные DINO, с большей вероятностью эффективно дифференцируют сложные категории благодаря своей выразительной природе, тем самым улучшая результаты классификации. Такая синергия между самоконтролируемым обучением и задачами классификации показывает растущую важность и потенциал обучения представлению в искусственном интеллекте и машинном обучении.

Понимание тонкостей обучения представлению, его разнообразных форм и приложений может дать инженерам машинного обучения возможность разрабатывать более надежные и мощные модели. С появлением моделей самоконтролируемого обучения, таких как DINO, стало ясно, что мы узнаем больше об истинном потенциале этих выученных представлений и о том, как они способствуют улучшению конечных результатов.

Трансферное обучение: опираясь на основы самоконтроля

В нынешней среде ИИ многие модели ИИ не создаются с нуля. Вместо этого они начинают свою работу, полагаясь на модель с самоконтролем (например, базовую модель), предварительно обученную методом самоконтроля. Далее они настраиваются под конкретную задачу. У такого подхода есть причина; как показано в предыдущем разделе, эти модели с самоконтролем изучают мощные представления, которые подходят для широкого круга задач.

В основе моделей с самоконтролем лежит их сверхъестественная способность находить значимые представления из необработанных данных без необходимости явных меток, ориентированных на задачи. Эти представления, уточненные многочисленными шаблонами и связями внутри данных, представляют собой широкое и общее описание данных, что делает их применимыми для широкого круга задач. Многоцелевые представления позволяют осуществлять содержательный переход к другим задачам. По сути, это трансферное обучение. Здесь новая модель для конкретной задачи опирается на ранее обученные представления, которые могут быть получены в результате самоконтролируемого или другого контролируемого процесса обучения.

У трансферного обучения есть два основных преимущества: во-первых, происходит значительное сокращение объема требуемых данных. Вы больше не зависите от больших размеченных наборов данных для достижения надежной производительности. Во-вторых, это приводит к заметному падению вычислительных затрат. Базовая модель уже выполнила большую часть тяжелой работы, а ваша модель, ориентированная на конкретную задачу, просто совершенствуется и специализируется на ней.

Стратегия, которую принимают многие, предполагает использование «замороженной магистрали». В этом подходе представления, сформированные в ходе самостоятельного обучения, сохраняются неизменными, и обучению подвергается только глава модели, специфичный для конкретной задачи. Этот метод эффективен и требует меньше вычислительных затрат. Однако это не всегда универсальное решение. В зависимости от задачи некоторые изученные представления могут не полностью соответствовать тому, что необходимо. В таких случаях может оказаться полезным позволить части магистрали пройти переподготовку. Это гарантирует, что модель фиксирует нюансы данных, специфичных для задачи, и позволяет модели забывать представления, которые не имеют отношения к делу. Однако эта адаптация требует тщательного баланса с учетом вычислительных затрат, а также качества и количества доступных данных.

По сути, взаимодействие между самоконтролируемым обучением и трансферным обучением меняет концепцию современных моделей ИИ. Используя фундаментальные знания моделей с самоконтролем, мы оптимизируем процесс, экономим ресурсы и обеспечиваем максимальную настройку и готовность моделей к выполнению задач.

Проблемы в обучении представлениям: сбалансированный взгляд

Поскольку мы восхищаемся инновациями, которые приносит обучение репрезентации, крайне важно сохранять сбалансированную точку зрения. Как и любая методология, используемая в машинном обучении, обучение представлению имеет свои проблемы и ограничения.

  • Риск переоснащения. Обучение представлению, особенно если оно задействует глубокие нейронные сети, иногда может улавливать шум в данных как признаки. Пытаясь выявить сложные закономерности, модели могут в конечном итоге «запоминать» обучающие данные. Эта чрезмерная спецификация приводит к плохому обобщению при использовании невидимых данных. Хотя такие модели, как DINO и другие подходы с самоконтролем, предлагают способы борьбы с этим, проблема остается проблемой.
  • Интерпретация полученных представлений. Одним из существенных преимуществ ручного проектирования функций была его прозрачность. Инженеры хорошо понимали используемые функции и их влияние на конечную модель. Напротив, выученные представления создают еще более темный «черный ящик» модели. Эти представления, хотя и мощные, могут быть сложными, абстрактными и не поддающимися немедленной интерпретации. Это само по себе создает проблемы в приложениях, где понимание и доверие имеют первостепенное значение.
  • Интенсивность вычислений. Несмотря на повышение эффективности использования представлений с помощью таких концепций, как трансферное обучение, первоначальный процесс обучения моделей для изучения этих представлений может оказаться ресурсоемким. Глубокие нейронные сети требуют огромных вычислительных мощностей, что может стать ограничением для небольших организаций или отдельных исследователей.
  • Потенциальные искажения. Модели учатся на данных; если данные имеют предвзятость, изученные представления могут непреднамеренно уловить и увековечить их. Это особенно актуально для моделей с самоконтролем, которые полагаются на огромные объемы немаркированных данных. Этические последствия значительны, особенно когда модели используются в таких чувствительных областях, как медицинская визуализация или уголовное правосудие.
  • Один размер не подходит всем. Несмотря на то, что изученные представления широко применимы, они не всегда могут быть лучшими для каждой задачи. Некоторые проблемы, специфичные для предметной области, больше выигрывают от настраиваемых, созданных вручную функций по сравнению с общими представлениями.

В заключение, хотя обучение представлению меняет наш подход к проблемам машинного обучения, требуется разумный подход. Принимая во внимание его сильные стороны и признавая его проблемы, мы гарантируем правильное применение этой техники.

Заключение

В нашем исследовании обучения представлению мы перешли от кропотливого процесса ручного проектирования функций к автоматизированному способу изучения надежных функций. Поскольку мы движемся в будущее, важно помнить о преимуществах обучения представлению, поскольку они могут улучшить ваши будущие модели машинного обучения. После этого поста в блоге я углублюсь в три конкретные статьи, посвященные (1) тому, как использовать изученные представления, чтобы сделать ваш Vision Transformer быстрее, (2) распутывать CNN, чтобы обнаружить, что они могут перегружаться по размеру входных данных, и (3) способ использования самоконтроля для повышения производительности контролируемой модели. Увидимся там!