Новая основополагающая модель для компьютерного зрения, объясняющая множество LLM с открытым исходным кодом, и должен ли ИИ быть открытым исходным кодом?

AI Pulse также доступен по адресу pulseofai.substack.com.

В этом выпуске:

  • DINOv2, универсальная основа компьютерного зрения;
  • После утечки LlaMa появляется множество LLM с открытым исходным кодом;
  • Должны ли модели ИИ быть открытыми?

DINOv2

TL;DR

📢 Meta выпускает вторую версию своей самоперегонки без меток или модели DINO, которую можно использовать в качестве универсальной основы компьютерного зрения без необходимости ее тонкой настройки.
📝 Статья: https://arxiv .org/abs/2304.07193
💻 Код: https://github.com/facebookresearch/dinov2
👀 Демо: https://dinov2.metademolab.com/

Новости

DINOv2 — это семейство моделей, которые изучают визуальные особенности из немаркированных данных. Затем эти функции можно использовать без дополнительной настройки для широкого круга последующих задач, включая классификацию изображений, сегментацию или оценку глубины. Модели демонстрируют интересные свойства, такие как понимание частей объекта и геометрии сцены, что делает их подходящей основой для еще более сложных задач.

Новизна заключается в том, что магистраль DINOv2, предварительно обученная самоконтролируемым способом, не требует тонкой настройки. Можно взять его как есть и, например, построить поверх него небольшой линейный классификатор для решения любой задачи классификации изображений. Это противоречит всем существовавшим на сегодняшний день архитектурам с самоконтролем, которые обычно требуют точной настройки веса всей сети, включая магистраль, для того, чтобы хорошо выполнять нисходящие задачи.

Meta открыла исходный код не только кода обучения, но и обученных моделей различных размеров.

Погружаясь глубже

Самостоятельное обучение (SSL) — это парадигма обучения, в которой модель обучается изучать функции из немаркированных данных. Это очень удобно для случаев использования, когда аннотирование данных сложно или дорого, например, для медицинской диагностики. Но методы SSL также привели к повышению производительности в других сценариях благодаря тому, что они могут учиться на больших наборах данных и не подвержены влиянию предвзятых или неправильных аннотаций.

DINOv2 в значительной степени основан на своей первой версии. Действительно, авторы открыто заявляют, что большая часть технического вклада v2 направлена ​​на ускорение и стабилизацию обучения. Как и v1, DINOv2 обучается процессу самоперегонки без меток:

  • Два визуальных преобразователя (ViT) создаются с одинаковой архитектурой: учитель и ученик.
  • Из каждого тренировочного изображения вырезается несколько случайных кадров. Некоторые из них являются глобальными кадрами и содержат большую часть исходного изображения, в то время как другие являются локальными кадрами, которые составляют лишь небольшую часть.
  • Все посевы проходят через сеть Ученика, а через Учителя только глобальные посевы.
  • Выходные представления обеих сетей сравниваются с кросс-энтропийными потерями. Веса учеников обновляются на основе этой потери, чтобы побудить их производить результаты, более похожие на результаты Учителя. Веса Учителя, с другой стороны, обновляются с помощью экспоненциального скользящего среднего веса Ученика.

Основное преимущество DINOv2 по сравнению с предшественником — набор данных, который был доступен для предварительного обучения. Авторы отмечают, что большинство разработок SSL до сих пор были сделаны в контексте предварительного обучения в ImageNet, отсутствие разнообразия которого может привести к переобучению нескольких доминирующих режимов. С этой целью они реализуют простой, но эффективный механизм кластеризации, который позволяет им собирать тщательно подобранный разнообразный набор изображений.

За новостями

Мета уже некоторое время возглавляет исследование методов самоконтроля для компьютерного зрения. В 2021 году Янн ЛеКун, главный научный сотрудник Meta в области искусственного интеллекта, опубликовал то, что сейчас стало известным постом в блоге под названием Обучение с самоконтролем: темная материя интеллекта. В нем ЛеКун утверждал, что SSL — один из наиболее многообещающих способов накопления фоновых знаний и приближения к форме здравого смысла в системах ИИ.

С тех пор исследователи Meta выпустили множество успешных архитектур SSL, в том числе MoCo или DINO. На прошлой неделе они обобщили свой опыт по этой теме в Поваренной книге самоконтроля.

Множество LLM с открытым исходным кодом

TL;DR

📢 В конце февраля этого года Meta анонсировала LLaMa, свой ответ на модели OpenAI GPT. Первоначально LLaMa не предназначалась для открытого исходного кода, но через неделю после ее объявления модель просочилась на 4chan, что положило начало сумасшедшему веселью других LLM с открытым исходным кодом, которые строятся на ее основе. Эта статья поможет вам разобраться в этом изобилии больших языковых моделей и связанных с ними проектов.

  1. Альпака
    🌐 https://crfm.stanford.edu/2023/03/13/alpaca.html
    Настроенный LLaMa, обученный следовать инструкциям. В частности, Meta 7B LLaMa была настроена на 52K демонстраций выполнения инструкций, созданных на основе text-davinci-003 OpenAI, модели, лежащей в основе GPT-3. Примечательно, как авторы воспользовались синергетическим эффектом, создаваемым обилием LLM: они создали свою модель, используя другой LLM для генерации обучающих данных для тонкой настройки еще одного LLM.
  2. Vicuna
    🌐https://vicuna.lmsys.org/
    Еще одна доработанная LLaMa, на этот раз о разговорах между ChatGPT и ее пользователи. В частности, LLaMa от Meta был настроен на данные, которыми обмениваются пользователи ChatGPT на sharegpt.com. Разумно ожидать, что модель будет имитировать поведение ChatGPT. Авторы использовали GPT-4 для оценки Vicuna и выяснили, что она обеспечивает 90% качества ChatGPT.
  3. Коала
    🌐 https://bair.berkeley.edu/blog/2023/04/03/koala/
    Подобно Викуне, Коала — это точно настроенный LLaMa в общедоступных беседах. Помимо диалогов ShareGPT, он также использует набор других наборов данных. Главный вывод автора заключается в том, что больше данных не всегда лучше: версия Koala, которая использует только высококачественные обучающие данные, работает лучше, чем версия, настроенная на большее количество некурируемых наборов данных.
  4. GPT4-x-Alpaca
    🌐 https://huggingface.co/chavinlo/gpt4-x-alpaca
    Так же, как Альпака была обучена тонкой настройке LLaMa, чтобы следовать инструкции, GPT4-x-Alpaca — это LLaMa, точно настроенная на данные GPTeacher, набор наборов данных, следующих за инструкциями, сгенерированных GPT4.
  5. ColossalChat
    🌐 https://github.com/hpcaitech/ColossalAI
    Модель на основе LLaMa. Авторы раскрывают не только самого чат-бота, но и весь процесс обучения, включая компонент Reinforcement Learning with Human Feedback (RLHF).
  6. ChatLLama
    🌐 https://github.com/juncongmoo/chatllama
    LLaMa, точно настроенный с RLHF, как и ChatGPT. Авторы публикуют обучающий код, позволяющий каждому обучать свою собственную модель, подобную ChatGPT. Более того, обучение выполняется на одном графическом процессоре и предположительно в 15 раз быстрее, чем у ChatGPT.
  7. OpenAssistant
    🌐 https://open-assistant.io/
    Проект, призванный предоставить всем доступ к чат-ботам. В рамках этих усилий авторы выпускают большой набор данных OpenAssistant Conversations и просят всех внести свой вклад, отправляя, ранжируя и помечая подсказки и ответы модели.
  8. FreedomGPT
    🌐https://www.freedomgpt.com/
    Версия Alpaca с простым пользовательским интерфейсом, позволяющая запускать модель без цензуры локально и в частном порядке.
  9. WizardLM
    🌐 https://arxiv.org/abs/2304.12244
    Еще один LLaMa, настроенный на данные о выполнении инструкций. На этот раз авторы использовали другой LLM для генерации инструкций разной сложности. Начав с набора простых инструкций, они использовали модель, чтобы шаг за шагом переписать их в более сложные инструкции.

Должны ли модели ИИ быть открытыми?

TL;DR

📢 Взрыв генеративных моделей, который мы наблюдали в последние месяцы, вызывает дискуссию об их доступности. «Природа» вносит важный вклад в дебаты, выступая в пользу ИИ с открытым исходным кодом.

Обсуждение ИИ-доступа

Генеративный ИИ уже существует некоторое время, но кембрийский взрыв, который мы наблюдаем в наши дни, произошел совсем недавно, когда конечные пользователи получили возможность напрямую взаимодействовать с технологией.

Все началось с моделей создания изображений, таких как DALL-E 2, Stable Diffusion и Midjourney. Затем пришло время больших языковых моделей с выпуском ChatGPT, за которым последовал ряд подобных чат-ботов. Некоторые из них, в том числе модели на основе GPT от OpenAI и Bard от Google, имеют платный доступ, в то время как другие, особенно многие LLM, построенные на основе модели LLaMa от Meta, находятся в свободном доступе.

Сторонников моделей искусственного интеллекта с открытым исходным кодом столько же, сколько и критиков этой идеи. Первые часто отмечают, что широкий доступ к новым алгоритмам ускоряет как исследовательский прогресс, поскольку ученые основываются на работе друг друга, так и внедрение на рынке, поскольку компании могут легко создавать продукты на основе ИИ. Критики, с другой стороны, часто предостерегают от злоумышленников, использующих технологии с открытым исходным кодом для неэтичных или опасных предприятий.

Голос природы для OpenAI

В дискуссию добавляется новый голос в виде статьи, опубликованной на сайте журнала Nature. В ней автор выступает за открытый доступ к моделям ИИ для всех, приводя следующие аргументы.

  • Предоставление неограниченного доступа к моделям ИИ позволяет исследователям исследовать внутреннюю работу модели, корректировать ее код и выявлять ошибки. Активное участие и контроль со стороны научного сообщества могут помочь в обеспечении безопасности таких моделей с течением времени.
  • Модели ИИ, доступные с открытым исходным кодом, имеют решающее значение для способности воспроизводить научные открытия, поскольку владельцы закрытых систем ИИ имеют возможность изменять свой продукт или данные, используемые для его обучения, что приводит к непредсказуемым изменениям его результатов.
  • Использование проприетарного ИИ в научных исследованиях вызывает этические вопросы, поскольку тексты или изображения, используемые для обучения этих моделей, часто не разглашаются и могут содержать личную информацию, которой обмениваются пользователи социальных сетей, или материалы, созданные детьми, которые не могут дать согласие на обмен этими данными.

Далее в статье содержится призыв к ученым по возможности отказаться от использования проприетарного ИИ в своей работе и перейти на открытые модели. Он также призывает правительства увеличить финансирование проектов, ориентированных на создание моделей с открытым исходным кодом для исследований.

Наш взгляд на это

Возможно, есть подходящее место как для проприетарного, так и для открытого ИИ, как и для других форм программного обеспечения. Некоторые сторонники открытого исходного кода говорят о «моменте Linux» генеративных моделей, имея в виду всплеск популярности свободного доступа к исходному коду, начатого операционной системой Linux. Но в конце концов, несмотря на популярность Linux среди разработчиков, проприетарная Microsoft Windows по-прежнему является операционной системой номер один на рынке, за ней следует MacOS.

Закрытые модели могут одновременно приносить огромную пользу обществу и их создателям, не исключая при этом стимула к инновациям. Они просто должны быть должным образом проверены и одобрены для обеспечения безопасности. Является ли инженер по сертификации ИИ работой недалекого будущего?

Спасибо за прочтение! AI Pulse также доступен в виде бесплатного информационного бюллетеня на Substack. Если вам понравилось, помогите мне стать лучше, подписавшись и поделившись им с коллегами и друзьями.