Эта статья также доступна в виде видео по адресу: https://www.youtube.com/watch?v=wBhS3oaufco
Добро пожаловать обратно в AI вместе с Джастином.
Эта статья — вторая из двух, в которой я на высоком уровне рассказываю об истории LLM и VLM на сегодняшний день.
Я составил эту временную шкалу в качестве руководства для статьи и буду добавлять графики и комментарии по мере ее прохождения. Часть 2 включает 2021 год, поскольку эта статья была написана в середине 2023 года.
В целом, исследования LLM с 2017 по 2020 год были сосредоточены на осознании эффекта масштабирования моделей на основе трансформаторов и их реализации.
В период с 2021 по 2023 год был продемонстрирован более широкий спектр тем, включая согласование человеческих предпочтений, поиск внешней информации, модели сочетания экспертов, мультимодальность и первые приложения LLM, которые привлекли внимание широкой общественности.
CLIP (январь 2021 г.) (OpenAI)
- Объединение текста и изображений
- Контрастные потери перед обучением: стимулируйте распространенные встраивания изображений и текста, вознаграждая оценки в одной и той же позиции внедрения и наказывая оценки в несовпадающих позициях.
Начнем с CLIP от OpenAI в январе 2021 года.
CLIP представил метод создания общих вложений для кодировщиков изображений и текста. В частности, исследователи разработали контрастирующий метод, который мог бы научиться представлять изображение и соответствующие встраивания описательного текста с идентичным или очень похожим скрытым результатом.
Кстати, мультимодальная модель по своей сути не является языковой моделью. Для описания моделей, включающих как текстовые, так и графические входные данные, стал популярным новый термин: модели визуального языка или VLM.
Переключающие трансформаторы (январь 2021 г.) (параметры 1,6 Т)
- Цель: реализация совместного опыта LLM на основе трансформаторов и крупномасштабное масштабирование
- Подавление шума
Также в том же месяце произошло первое крупномасштабное внедрение смешанного экспертного сообщества, или МО. MoE — это конструкция с разреженностью, в которой используется метод применения разных параметров для разных входных данных. Другими словами, не все параметры будут использоваться для каждого входа, и в идеале аналогичные входы будут использовать схожие параметры.
Идея MoE заключается в том, что вы можете масштабировать сложность модели без увеличения затрат на вычислительное обучение. Однако обратите внимание, что требуемая память и стоимость вывода для этих моделей все равно будут увеличиваться.
Реализация MoE в Switch Transformer заключалась в добавлении уровня «коммутации», который направлял входные данные в различные наборы сетей прямой связи. Авторы также подняли тему о том, что мультимодальные модели, вероятно, могут выиграть от разработки МО, поскольку разные параметры могут специализироваться на разных формах информации.
LaMDA (Google) (объявлено в мае 2021 г.) (документ от января 2022 г.) (137 Б параметров)
- Цель: повышение качества, безопасности и обоснованности за счет точной настройки и поиска информации в диалоговых системах с комментариями человека
- Предварительная подготовка к предсказанию следующего слова, только декодер
В мае Google анонсировала LaMDA, преемника Meena. LaMDA имела большое количество параметров, была предназначена для диалога и имела несколько интересных стратегий и компонентов.
Как и Мина, LaMBDA была настроена на ответы, аннотированные вручную. За исключением того, что вместо разумности и конкретности аннотации основывались на качествах разумности, интересности и безопасности.
Кроме того, LaMDA был обучен с помощью имитационного обучения использованию многочисленных внешних инструментов, включая часы/календарь реального времени, калькулятор, систему перевода и систему поиска информации в Интернете.
У LaMDA есть два основных релиза, второй — в мае 2022 года.
В июне 2022 года исследователь Google публично заявил, что модель обладает разумом, что стимулировало разговоры о том, что на самом деле представляет собой разум, и усилило общественное обсуждение ИИ.
Второй пилот/Кодекс (OpenAI) (август 2021 г.)
- Тонкая настройка GPT в корпусе Github
Вернувшись в 2021 год, в августе Microsoft и OpenAI выпустили Github Copilot на базе Codex.
Copilot — это помощник по программированию, доступный в основных IDE в виде плагина и ставший довольно популярным.
Codex — это ветвь GPT-3, доработанная на базе кода из Github. Теперь, в 2023 году, доступен Copilot X, в котором в качестве базовой модели используется GPT-4.
Megatron-Turing NLG (Microsoft/NVIDIA) (блог, октябрь 2021 г.) (документ, январь 2022 г.) (параметры 530B)
- Цель: обучение еще больше. Дальнейший прогресс в области возможностей и знаний с нулевым/несколько раз.
- Похоже на GPT
В октябре Microsoft и NVIDIA выпускают Megatron-Turing NLG, который представляет собой масштабирование Megatron-LM с использованием библиотеки оптимизации DeepSpeed. Хотя на самом деле это не принесло новых исследовательских инноваций, оно все же обеспечило стандарт для масштабных инженерных моделей. Модель была более чем в три раза больше GPT-3 и демонстрировала самые современные характеристики во многих категориях.
GLAM (Google) (декабрь 2021 г.) (разреженные параметры 1,2 ТБ)
- Фокус: реализация МОС
- ЧПП
В декабре количество параметров MT-NLG было удвоено за счет GLAM от Google, с учетом того, что GLAM является еще одной реализацией MoE. В документе представлены новые методы стабилизации подготовки МО, которая оказалась крайне нестабильной.
Web GPT (16 декабря 2021 г.)
- Научимся использовать веб-браузер посредством клонирования поведения, а затем настроим его с помощью RLHF для ответа на вопросы
Также в декабре OpenAI выпустила Web GPT, в котором применялось клонирование поведения для использования текстового веб-браузера на базе Bing, а затем RLHF с намерением повысить полезность и точность.
Примечательно, что поиск документов включал ссылки, что очень помогает объяснить модель.
RETRO (DeepMind) (блог и статья, декабрь 2021 г.) (7B параметров)
- Фокус: явное запоминание посредством поиска ближайшего соседа и перекрестного внимания
- NWP использует встраивания BERT для извлечения данных из памяти
Примерно в то же время Deepmind опубликовал два важных исследования. Первое из них — РЕТРО.
RETRO, как и Web-GPT, был ориентирован на поиск внешней информации. Вместо обучения явному механизму поиска информации компания DeepMind решила интегрировать поиск информации непосредственно в архитектуру преобразователя.
Их подход включал создание вложений внешней базы данных с использованием BERT, выполнение поиска ближайших соседей между встраиванием BERT входной последовательности и внешней базой данных, дальнейшее кодирование результата, а затем интеграцию этого результата в модель основного преобразователя посредством перекрестного внимания.
Несмотря на то, что этот подход имел серьезный недостаток, связанный с поддержкой полностью встроенной базы данных, он также показал очень впечатляющую производительность, значительно превосходя более крупные модели во многих задачах.
Gopher (DeepMind) (блог и статья, декабрь 2021 г.) (параметры 280B)
- Цель: дальнейшее масштабирование. Наблюдение сублинейного улучшения в задачах логики/рассуждения.
- ЧПП
Второе исследование было Gopher. Gopher использовал архитектуру, подобную GPT, и был высокопроизводительным, но не привнес много новых технических инноваций. Однако в исследовательской работе было отмечено, что задачи, требующие большого количества рассуждений, улучшались медленнее, чем задачи, требующие больших знаний.
InstructGPT (январь 2022 г.)
- Использование RLHF в нужном масштабе, точно настроенном в соответствии с инструкциями
В начале 2022 года OpenAI выпустила InstructGPT, который стал очень успешным исследованием согласования человеческих предпочтений.
Instruct-GPT был первым GPT-3, доработанным под наблюдением на демонстрациях выполнения написанных человеком инструкций, за которым последовал RLHF на модели вознаграждения, обученной на ранжировании ответов людьми.
Instruct-GPT — это родственная модель Chat-GPT, основное отличие которой заключается в том, что Chat-GPT оптимизирован для диалога, а не для конкретного следования инструкциям.
OpenAI отметила в своем сообщении в блоге: «Один из способов думать об этом процессе (имея в виду согласование) заключается в том, что он «открывает» возможности, которые уже были у GPT-3».
Шиншилла (DeepMind) (март 2022 г.) (70 млрд параметров)
- Фокус: модель меньшего размера, больше жетонов. Вычислить оптимальное по Парето сравнение с Gopher
- Оптимальность вычислений
Два месяца спустя Deepmind опубликовал исследование, продолжающее исследование ранее упомянутого Gopher.
Главный вывод исследования заключался в том, что Gopher и другие модели их размера, вероятно, недостаточно обучены, что указывает на то, что обычно используемые законы масштабирования нуждаются в доработке.
Они поддержали свои утверждения, создав Chinchilla, стоимость обучения которой была эквивалентна Gopher, но имела гораздо меньшее количество параметров и обучалась на большем количестве токенов.
Chinchilla смогла превзойти Gopher по большинству задач, несмотря на то, что у нее в 4 раза меньше параметров.
PaLM (Google) (апрель 2022 г.) (параметры 540B)
- Цель: лог-линейное увеличение производительности с увеличением масштаба и появлением новых возможностей
- NWP, только для декодера
Месяц спустя Google опубликовала технический отчет о PaLM, своей крупнейшей модели, не связанной с Министерством энергетики.
Наблюдались прерывистые улучшения для некоторых масштабных задач, что подтверждает тот факт, что ранее недостижимые возможности сложных задач могут возникнуть просто с дополнительной сложностью.
Исследовательская работа PaLM также дала много ценной информации о проблемах, методах и технологиях, используемых для обучения модели в больших масштабах.
Фламинго (Deepmind) (апрель 2022 г.)
- Мультимодальность
Примерно в то же время Deepmind выпустила Flamingo, который представлял собой успешное применение совместного использования встраивания наподобие CLIP для предварительно обученных LLM.
По сути, исследователям удалось обучить CLIP-подобные промежуточные ресэмплеры встраивания изображений для создания встраивания, которые можно было бы интегрировать с встраиванием текста посредством перекрестного внимания.
Это означало, что существующие LLM и модели изображений можно было комбинировать мультимодальным способом без какого-либо изменения существующих обученных весов.
LLM — это специалисты по рассуждениям с нулевым выстрелом. Подсказки по цепочке мыслей вызывают рассуждения (май 2022 г.):
Месяц спустя были опубликованы два интересных исследования по быстрому дизайну: LLM — это «нулевые рассуждения» и «Цепочка мыслей, вызывающая рассуждения». Исследования показали, что когда модели получали подсказки таким образом, чтобы стимулировать их выводить дополнительные отрывки, логическая производительность значительно улучшалась.
Эти статьи привлекли больше внимания к исследованиям того, что возможно с помощью преднамеренного оперативного проектирования.
Минерва (июнь 2022 г.) (Google)
- PaLM оптимизирован для Arxiv
- использует несколько подсказок (цепочку мыслей) и голосование большинством
Два месяца спустя Google опубликовал Minerva, которая была доработана PaLM на 118 ГБ текста в формате arxiv в сочетании с такими методами вывода, как цепочка мыслительных подсказок и голосование большинством.
Модель показала современную производительность при решении задач количественного мышления.
BLOOM (Обнимающее лицо) (июль 2022 г.) (176B параметров)
- В центре внимания: модель размера GPT-3 с открытым исходным кодом
- NWP, только для декодера
Позже тем же летом BLOOM был выпущен компаниями Hugging Face и BigScience. Эта модель является крупнейшей публично доступной LLM, однако ее производительность была несколько невысокой, возможно, из-за недостаточной подготовки.
Chat-GPT (ноябрь 2022 г.)
- Изначально на основе GPT 3.5, теперь 4 (платная)
- RLHF, вероятно, настроен на данные диалога
Перенесемся в ноябрь, когда Chat-GPT был выпущен и приобрел бешеную популярность, достигнув 1 миллиона пользователей всего за 5 дней.
Хотя технические подробности конкретной модели, поддерживающей чат-бота, не разглашаются, можно с уверенностью сказать, что модель очень похожа на Instruct-GPT.
Chat-GPT также неоднократно обновлялся на протяжении всего развертывания. Использование GPT-4 доступно в Chat-GPT через платную подписку.
Гато (ноябрь 2022 г.) (Deepmind)
- Многомодальный, многозадачный, многовариантный
Также в ноябре Deepmind выпустила Gato — единый универсальный агент, который работает в мультимодальном домене, выполняет множество задач и даже имеет несколько вариантов реализации.
Из их сообщения в блоге: «Одна и та же сеть с одинаковыми весами может воспроизводить Atari, изображения подписей, чат, стековые блоки с настоящей роботизированной рукой и многое другое, принимая решение на основе контекста, выводить ли текст, крутящие моменты суставов, нажатия кнопок или другие токены».
Основной технический вклад Гато заключается в объединении всех данных различных модальностей в формат, с которым может работать модель. Подводя итог, они делают это путем токенизации и внедрения с учетом модальности, а затем сериализуют все результаты в единую последовательность, которая предоставляется модели.
Примечательно, что Gato значительно отстает от современного уровня для всех отдельных задач, это исследование в обобщении, а не демонстрация производительности. Кроме того, поскольку параметров всего чуть больше 1 млрд, существует достаточно возможностей для масштабирования этого подхода.
— Январь 2023 г. Microsoft инвестирует 10 млрд долларов в OpenAI —
В начале 2023 года, когда популярность Chat-GPT резко возросла, было объявлено, что Microsoft инвестировала еще 10 миллиардов долларов в OpenAI.
BLIP-2 (январь 2023 г.) (SalesForce)
- Изображение + текст
- Превосходит фламинго в некоторых аспектах, используя в 54 раз меньше параметров
Также в январе SalesForce выпустила VLM под названием BLIP-2.
BLIP-2 улучшил производительность по сравнению с Flamingo, несмотря на то, что у него в 54 раза меньше параметров.
Как и Flamingo, BLIP-2 перепрофилировал предварительно обученные модели изображений и LLM.
Он сделал это с помощью своего «Трансформатора запросов», который имеет сложный многоцелевой двухэтапный процесс обучения, который имеет некоторые общие компоненты с Flamingo, но также и некоторые новые.
LLaMA (февраль 2023 г.) (Facebook) (65 B параметров)
- Открытый исходный код
- Лучшая производительность, чем у GPT-3, сравнимая с шиншиллой и PaLM.
В феврале Facebook выпустил LLaMA с открытым исходным кодом, который стал очень популярен среди исследовательского сообщества. LLaMA имеет архитектуру, подобную GPT, с некоторыми изменениями, вдохновленными PaLM и GPTNeo, и является самой высокопроизводительной общедоступной моделью.
За неделю до написания этой статьи Facebook выпустил LLaMA 2, которая включает в себя контролируемые и настроенные RLHF модели.
GPT-4 (2023 г.) (14 марта)
- Мультимодальный
В марте произошло много заметной активности.
Во-первых, GPT-4 стал общедоступным через ChatGPT plus.
Также был выпущен технический отчет, в котором не было большого количества технических подробностей, но который содержал много информации о состоянии месторождения.
БАРД (Google) (март 2023 г.)
- Бард – чат-бот Google
- на основе LaMDA, но теперь PaLM
Во-вторых, Google открыл доступ к Bard, который в то время работал на LaMDA, затем на PaLM, а в настоящее время на PaLM 2.
PaLM-E (Google) (март 2023 г.)
- PALM идеально подходит для робототехники широкого профиля
В-третьих, Google анонсировала PaLM-E, который представляет собой PaLM, но адаптированный для решения общих задач робототехники. Для достижения этого модальности датчиков кодируются в векторы последовательности той же размерности, что и пространство внедрения языковых токенов. Вместо того, чтобы явно обучать стратегии планирования, они позволяют модели разрабатывать политики низкого уровня, обеспечивая сквозное кондиционирование.
Объединение DeepMind и Google Brain
В-четвертых, Google объявила о слиянии Google Brain и DeepMind, приобретенных еще в 2014 году.
PALM 2 (Google) (май 2023 г.)
- О технических деталях известно немного.
- В настоящее время это базовая модель для BARD
Наконец, в мае Google опубликовал технический отчет для PaLM 2, который, как и технический отчет GPT-4, не содержал столько технических подробностей, сколько обычный исследовательский документ. Тем не менее, он продемонстрировал очень впечатляющую производительность, значительно улучшившись по сравнению с первым PaLM.
Вот и все для этой серии. Надеюсь, статья оказалась для вас полезной, если да, то поставьте лайк и будем рады любому отзыву!
Использованная литература:
https://twitter.com/joeddav/status/1390731890009812994 несколько снимков
Диаграмма https://www.similarweb.com/blog/wp-content/uploads/2023/02/chatgpt_growth_1.png чата-gpt
Диаграмма чата https://cdn.buttercms.com/output=f:webp/lgJEtn9sTLu1AflcBKDy
https://www.deepmind.com/blog/a-generalist-agent блог deepmind gato
https://arxiv.org/pdf/2301.12597.pdf исследовательская статья blip-2
https://www.linkedin.com/posts/mustafa-fatakdawala_google-architecture-learning-activity-7025440053996756992-mqm1 gpt против bert