Хронология программ LLM (Часть 2)

Эта статья также доступна в виде видео по адресу: https://www.youtube.com/watch?v=wBhS3oaufco

Добро пожаловать обратно в AI вместе с Джастином.

Эта статья — вторая из двух, в которой я на высоком уровне рассказываю об истории LLM и VLM на сегодняшний день.

Я составил эту временную шкалу в качестве руководства для статьи и буду добавлять графики и комментарии по мере ее прохождения. Часть 2 включает 2021 год, поскольку эта статья была написана в середине 2023 года.

В целом, исследования LLM с 2017 по 2020 год были сосредоточены на осознании эффекта масштабирования моделей на основе трансформаторов и их реализации.

В период с 2021 по 2023 год был продемонстрирован более широкий спектр тем, включая согласование человеческих предпочтений, поиск внешней информации, модели сочетания экспертов, мультимодальность и первые приложения LLM, которые привлекли внимание широкой общественности.

CLIP (январь 2021 г.) (OpenAI)

Объединение текста и изображений
Контрастные потери перед обучением: стимулируйте распространенные встраивания изображений и текста, вознаграждая оценки в одной и той же позиции внедрения и наказывая оценки в несовпадающих позициях.

Начнем с CLIP от OpenAI в январе 2021 года.

CLIP представил метод создания общих вложений для кодировщиков изображений и текста. В частности, исследователи разработали контрастирующий метод, который мог бы научиться представлять изображение и соответствующие встраивания описательного текста с идентичным или очень похожим скрытым результатом.

Кстати, мультимодальная модель по своей сути не является языковой моделью. Для описания моделей, включающих как текстовые, так и графические входные данные, стал популярным новый термин: модели визуального языка или VLM.

Переключающие трансформаторы (январь 2021 г.) (параметры 1,6 Т)

Цель: реализация совместного опыта LLM на основе трансформаторов и крупномасштабное масштабирование
Подавление шума

Также в том же месяце произошло первое крупномасштабное внедрение смешанного экспертного сообщества, или МО. MoE — это конструкция с разреженностью, в которой используется метод применения разных параметров для разных входных данных. Другими словами, не все параметры будут использоваться для каждого входа, и в идеале аналогичные входы будут использовать схожие параметры.

Идея MoE заключается в том, что вы можете масштабировать сложность модели без увеличения затрат на вычислительное обучение. Однако обратите внимание, что требуемая память и стоимость вывода для этих моделей все равно будут увеличиваться.

Реализация MoE в Switch Transformer заключалась в добавлении уровня «коммутации», который направлял входные данные в различные наборы сетей прямой связи. Авторы также подняли тему о том, что мультимодальные модели, вероятно, могут выиграть от разработки МО, поскольку разные параметры могут специализироваться на разных формах информации.

LaMDA (Google) (объявлено в мае 2021 г.) (документ от января 2022 г.) (137 Б параметров)

Цель: повышение качества, безопасности и обоснованности за счет точной настройки и поиска информации в диалоговых системах с комментариями человека
Предварительная подготовка к предсказанию следующего слова, только декодер

В мае Google анонсировала LaMDA, преемника Meena. LaMDA имела большое количество параметров, была предназначена для диалога и имела несколько интересных стратегий и компонентов.

Как и Мина, LaMBDA была настроена на ответы, аннотированные вручную. За исключением того, что вместо разумности и конкретности аннотации основывались на качествах разумности, интересности и безопасности.

Кроме того, LaMDA был обучен с помощью имитационного обучения использованию многочисленных внешних инструментов, включая часы/календарь реального времени, калькулятор, систему перевода и систему поиска информации в Интернете.

У LaMDA есть два основных релиза, второй — в мае 2022 года.

В июне 2022 года исследователь Google публично заявил, что модель обладает разумом, что стимулировало разговоры о том, что на самом деле представляет собой разум, и усилило общественное обсуждение ИИ.

Второй пилот/Кодекс (OpenAI) (август 2021 г.)

Тонкая настройка GPT в корпусе Github

Вернувшись в 2021 год, в августе Microsoft и OpenAI выпустили Github Copilot на базе Codex.

Copilot — это помощник по программированию, доступный в основных IDE в виде плагина и ставший довольно популярным.

Codex — это ветвь GPT-3, доработанная на базе кода из Github. Теперь, в 2023 году, доступен Copilot X, в котором в качестве базовой модели используется GPT-4.

Megatron-Turing NLG (Microsoft/NVIDIA) (блог, октябрь 2021 г.) (документ, январь 2022 г.) (параметры 530B)

Цель: обучение еще больше. Дальнейший прогресс в области возможностей и знаний с нулевым/несколько раз.
Похоже на GPT

В октябре Microsoft и NVIDIA выпускают Megatron-Turing NLG, который представляет собой масштабирование Megatron-LM с использованием библиотеки оптимизации DeepSpeed. Хотя на самом деле это не принесло новых исследовательских инноваций, оно все же обеспечило стандарт для масштабных инженерных моделей. Модель была более чем в три раза больше GPT-3 и демонстрировала самые современные характеристики во многих категориях.

GLAM (Google) (декабрь 2021 г.) (разреженные параметры 1,2 ТБ)

Фокус: реализация МОС
ЧПП

В декабре количество параметров MT-NLG было удвоено за счет GLAM от Google, с учетом того, что GLAM является еще одной реализацией MoE. В документе представлены новые методы стабилизации подготовки МО, которая оказалась крайне нестабильной.

Web GPT (16 декабря 2021 г.)

Научимся использовать веб-браузер посредством клонирования поведения, а затем настроим его с помощью RLHF для ответа на вопросы

Также в декабре OpenAI выпустила Web GPT, в котором применялось клонирование поведения для использования текстового веб-браузера на базе Bing, а затем RLHF с намерением повысить полезность и точность.

Примечательно, что поиск документов включал ссылки, что очень помогает объяснить модель.

RETRO (DeepMind) (блог и статья, декабрь 2021 г.) (7B параметров)

Фокус: явное запоминание посредством поиска ближайшего соседа и перекрестного внимания
NWP использует встраивания BERT для извлечения данных из памяти

Примерно в то же время Deepmind опубликовал два важных исследования. Первое из них — РЕТРО.

RETRO, как и Web-GPT, был ориентирован на поиск внешней информации. Вместо обучения явному механизму поиска информации компания DeepMind решила интегрировать поиск информации непосредственно в архитектуру преобразователя.

Их подход включал создание вложений внешней базы данных с использованием BERT, выполнение поиска ближайших соседей между встраиванием BERT входной последовательности и внешней базой данных, дальнейшее кодирование результата, а затем интеграцию этого результата в модель основного преобразователя посредством перекрестного внимания.

Несмотря на то, что этот подход имел серьезный недостаток, связанный с поддержкой полностью встроенной базы данных, он также показал очень впечатляющую производительность, значительно превосходя более крупные модели во многих задачах.

Gopher (DeepMind) (блог и статья, декабрь 2021 г.) (параметры 280B)

Цель: дальнейшее масштабирование. Наблюдение сублинейного улучшения в задачах логики/рассуждения.
ЧПП

Второе исследование было Gopher. Gopher использовал архитектуру, подобную GPT, и был высокопроизводительным, но не привнес много новых технических инноваций. Однако в исследовательской работе было отмечено, что задачи, требующие большого количества рассуждений, улучшались медленнее, чем задачи, требующие больших знаний.

InstructGPT (январь 2022 г.)

Использование RLHF в нужном масштабе, точно настроенном в соответствии с инструкциями

В начале 2022 года OpenAI выпустила InstructGPT, который стал очень успешным исследованием согласования человеческих предпочтений.

Instruct-GPT был первым GPT-3, доработанным под наблюдением на демонстрациях выполнения написанных человеком инструкций, за которым последовал RLHF на модели вознаграждения, обученной на ранжировании ответов людьми.

Instruct-GPT — это родственная модель Chat-GPT, основное отличие которой заключается в том, что Chat-GPT оптимизирован для диалога, а не для конкретного следования инструкциям.

OpenAI отметила в своем сообщении в блоге: «Один из способов думать об этом процессе (имея в виду согласование) заключается в том, что он «открывает» возможности, которые уже были у GPT-3».

Шиншилла (DeepMind) (март 2022 г.) (70 млрд параметров)

Фокус: модель меньшего размера, больше жетонов. Вычислить оптимальное по Парето сравнение с Gopher
Оптимальность вычислений

Два месяца спустя Deepmind опубликовал исследование, продолжающее исследование ранее упомянутого Gopher.

Главный вывод исследования заключался в том, что Gopher и другие модели их размера, вероятно, недостаточно обучены, что указывает на то, что обычно используемые законы масштабирования нуждаются в доработке.

Они поддержали свои утверждения, создав Chinchilla, стоимость обучения которой была эквивалентна Gopher, но имела гораздо меньшее количество параметров и обучалась на большем количестве токенов.

Chinchilla смогла превзойти Gopher по большинству задач, несмотря на то, что у нее в 4 раза меньше параметров.

PaLM (Google) (апрель 2022 г.) (параметры 540B)

Цель: лог-линейное увеличение производительности с увеличением масштаба и появлением новых возможностей
NWP, только для декодера

Месяц спустя Google опубликовала технический отчет о PaLM, своей крупнейшей модели, не связанной с Министерством энергетики.

Наблюдались прерывистые улучшения для некоторых масштабных задач, что подтверждает тот факт, что ранее недостижимые возможности сложных задач могут возникнуть просто с дополнительной сложностью.

Исследовательская работа PaLM также дала много ценной информации о проблемах, методах и технологиях, используемых для обучения модели в больших масштабах.

Фламинго (Deepmind) (апрель 2022 г.)

Мультимодальность

Примерно в то же время Deepmind выпустила Flamingo, который представлял собой успешное применение совместного использования встраивания наподобие CLIP для предварительно обученных LLM.

По сути, исследователям удалось обучить CLIP-подобные промежуточные ресэмплеры встраивания изображений для создания встраивания, которые можно было бы интегрировать с встраиванием текста посредством перекрестного внимания.

Это означало, что существующие LLM и модели изображений можно было комбинировать мультимодальным способом без какого-либо изменения существующих обученных весов.

LLM — это специалисты по рассуждениям с нулевым выстрелом. Подсказки по цепочке мыслей вызывают рассуждения (май 2022 г.):

Месяц спустя были опубликованы два интересных исследования по быстрому дизайну: LLM — это «нулевые рассуждения» и «Цепочка мыслей, вызывающая рассуждения». Исследования показали, что когда модели получали подсказки таким образом, чтобы стимулировать их выводить дополнительные отрывки, логическая производительность значительно улучшалась.

Эти статьи привлекли больше внимания к исследованиям того, что возможно с помощью преднамеренного оперативного проектирования.

Минерва (июнь 2022 г.) (Google)

PaLM оптимизирован для Arxiv
использует несколько подсказок (цепочку мыслей) и голосование большинством

Два месяца спустя Google опубликовал Minerva, которая была доработана PaLM на 118 ГБ текста в формате arxiv в сочетании с такими методами вывода, как цепочка мыслительных подсказок и голосование большинством.

Модель показала современную производительность при решении задач количественного мышления.

BLOOM (Обнимающее лицо) (июль 2022 г.) (176B параметров)

В центре внимания: модель размера GPT-3 с открытым исходным кодом
NWP, только для декодера

Позже тем же летом BLOOM был выпущен компаниями Hugging Face и BigScience. Эта модель является крупнейшей публично доступной LLM, однако ее производительность была несколько невысокой, возможно, из-за недостаточной подготовки.

Chat-GPT (ноябрь 2022 г.)

Изначально на основе GPT 3.5, теперь 4 (платная)
RLHF, вероятно, настроен на данные диалога

Перенесемся в ноябрь, когда Chat-GPT был выпущен и приобрел бешеную популярность, достигнув 1 миллиона пользователей всего за 5 дней.

Хотя технические подробности конкретной модели, поддерживающей чат-бота, не разглашаются, можно с уверенностью сказать, что модель очень похожа на Instruct-GPT.

Chat-GPT также неоднократно обновлялся на протяжении всего развертывания. Использование GPT-4 доступно в Chat-GPT через платную подписку.

Гато (ноябрь 2022 г.) (Deepmind)

Многомодальный, многозадачный, многовариантный

Также в ноябре Deepmind выпустила Gato — единый универсальный агент, который работает в мультимодальном домене, выполняет множество задач и даже имеет несколько вариантов реализации.

Из их сообщения в блоге: «Одна и та же сеть с одинаковыми весами может воспроизводить Atari, изображения подписей, чат, стековые блоки с настоящей роботизированной рукой и многое другое, принимая решение на основе контекста, выводить ли текст, крутящие моменты суставов, нажатия кнопок или другие токены».

Основной технический вклад Гато заключается в объединении всех данных различных модальностей в формат, с которым может работать модель. Подводя итог, они делают это путем токенизации и внедрения с учетом модальности, а затем сериализуют все результаты в единую последовательность, которая предоставляется модели.

Примечательно, что Gato значительно отстает от современного уровня для всех отдельных задач, это исследование в обобщении, а не демонстрация производительности. Кроме того, поскольку параметров всего чуть больше 1 млрд, существует достаточно возможностей для масштабирования этого подхода.

— Январь 2023 г. Microsoft инвестирует 10 млрд долларов в OpenAI —

В начале 2023 года, когда популярность Chat-GPT резко возросла, было объявлено, что Microsoft инвестировала еще 10 миллиардов долларов в OpenAI.

BLIP-2 (январь 2023 г.) (SalesForce)

Изображение + текст
Превосходит фламинго в некоторых аспектах, используя в 54 раз меньше параметров

Также в январе SalesForce выпустила VLM под названием BLIP-2.

BLIP-2 улучшил производительность по сравнению с Flamingo, несмотря на то, что у него в 54 раза меньше параметров.

Как и Flamingo, BLIP-2 перепрофилировал предварительно обученные модели изображений и LLM.

Он сделал это с помощью своего «Трансформатора запросов», который имеет сложный многоцелевой двухэтапный процесс обучения, который имеет некоторые общие компоненты с Flamingo, но также и некоторые новые.

LLaMA (февраль 2023 г.) (Facebook) (65 B параметров)

Открытый исходный код
Лучшая производительность, чем у GPT-3, сравнимая с шиншиллой и PaLM.

В феврале Facebook выпустил LLaMA с открытым исходным кодом, который стал очень популярен среди исследовательского сообщества. LLaMA имеет архитектуру, подобную GPT, с некоторыми изменениями, вдохновленными PaLM и GPTNeo, и является самой высокопроизводительной общедоступной моделью.

За неделю до написания этой статьи Facebook выпустил LLaMA 2, которая включает в себя контролируемые и настроенные RLHF модели.

GPT-4 (2023 г.) (14 марта)

Мультимодальный

В марте произошло много заметной активности.

Во-первых, GPT-4 стал общедоступным через ChatGPT plus.

Также был выпущен технический отчет, в котором не было большого количества технических подробностей, но который содержал много информации о состоянии месторождения.

БАРД (Google) (март 2023 г.)

Бард – чат-бот Google
на основе LaMDA, но теперь PaLM

Во-вторых, Google открыл доступ к Bard, который в то время работал на LaMDA, затем на PaLM, а в настоящее время на PaLM 2.

PaLM-E (Google) (март 2023 г.)

PALM идеально подходит для робототехники широкого профиля

В-третьих, Google анонсировала PaLM-E, который представляет собой PaLM, но адаптированный для решения общих задач робототехники. Для достижения этого модальности датчиков кодируются в векторы последовательности той же размерности, что и пространство внедрения языковых токенов. Вместо того, чтобы явно обучать стратегии планирования, они позволяют модели разрабатывать политики низкого уровня, обеспечивая сквозное кондиционирование.

Объединение DeepMind и Google Brain

В-четвертых, Google объявила о слиянии Google Brain и DeepMind, приобретенных еще в 2014 году.

PALM 2 (Google) (май 2023 г.)

О технических деталях известно немного.
В настоящее время это базовая модель для BARD

Наконец, в мае Google опубликовал технический отчет для PaLM 2, который, как и технический отчет GPT-4, не содержал столько технических подробностей, сколько обычный исследовательский документ. Тем не менее, он продемонстрировал очень впечатляющую производительность, значительно улучшившись по сравнению с первым PaLM.

Вот и все для этой серии. Надеюсь, статья оказалась для вас полезной, если да, то поставьте лайк и будем рады любому отзыву!

Использованная литература:

https://twitter.com/joeddav/status/1390731890009812994 несколько снимков

Диаграмма https://www.similarweb.com/blog/wp-content/uploads/2023/02/chatgpt_growth_1.png чата-gpt

Диаграмма чата https://cdn.buttercms.com/output=f:webp/lgJEtn9sTLu1AflcBKDy

https://www.deepmind.com/blog/a-generalist-agent блог deepmind gato

https://arxiv.org/pdf/2301.12597.pdf исследовательская статья blip-2

https://www.linkedin.com/posts/mustafa-fatakdawala_google-architecture-learning-activity-7025440053996756992-mqm1 gpt против bert