Революция генеративного искусственного интеллекта: изучение текущего ландшафта

Генеративный ИИ привлек большое внимание и инвестиции в прошлом году из-за его способности создавать связный текст, изображения, код и более впечатляющие результаты с помощью простой текстовой подсказки. Однако потенциал моделей ИИ этого поколения выходит за рамки типичных задач обработки естественного языка (NLP). Существует бесчисленное множество вариантов использования, таких как объяснение сложных алгоритмов, создание ботов, помощь в разработке приложений и объяснение академических концепций. Такие области, как анимация, игры, искусство, кино и архитектура, революционизируются благодаря программам преобразования текста в изображение, таким как DALL-E, Stable Diffusion и Midjourney. Кроме того, генеративные модели ИИ продемонстрировали преобразующие возможности в таких сложных областях, как разработка программного обеспечения, с такими инструментами, как GitHub Copilot и Replit Ghostwriter.

В то время как сегодняшние генеративные модели основаны на десятилетнем прогрессе, 2022 год стал годом, когда генеративный ИИ вызвал «Ага!» момент. На основе дискуссий об этой новой эре взаимодействия человека и машины возникают важные вопросы, такие как почему сейчас и что будет дальше? В этом посте рассказывается о том, как все началось, куда все идет и некоторые из крупнейших игроков и самые популярные модели в ландшафте генеративного ИИ сегодня, а также реальные инструменты, предназначенные для пользователей, чтобы оптимизировать процессы создания, создания идей, разработки и производства.

Что такое Генеративный ИИ?

Генеративный ИИ — это область машинного обучения, которая включает в себя обучение моделей искусственного интеллекта на больших объемах данных реального мира для создания нового содержимого (текста, изображения, кода и т. д.), сравнимого с тем, что создали бы люди. Это достигается путем обучения алгоритмов на больших наборах данных для выявления закономерностей и извлечения уроков из них. Как только нейронная сеть изучила эти шаблоны, она может генерировать новые данные, которые придерживаются тех же шаблонов. Однако этот процесс требует значительных вычислительных ресурсов.

По сути, генеративный ИИ для приложений НЛП будет обрабатывать огромный массив данных, на котором он был обучен, и отвечать на подсказки чем-то, что попадает в область вероятности, как следует из упомянутого корпуса. Например, автозаполнение — это низкоуровневая форма генеративного ИИ. Усовершенствованные модели, такие как ChatGPT и DALL-E, выводят концепцию на совершенно новый уровень. Различные архитектуры моделей, такие как диффузионные модели и большие языковые модели (LLM) на основе Transformer, могут использоваться для генеративных задач, таких как генерация изображений и языка.

Диффузионные модели — это тип генеративной модели ИИ, которую можно использовать для различных задач, включая создание изображений, шумоподавление и рисование. Точно так же архитектура Transformer произвела революцию в языковой области. Новая эра языковых моделей основана на Transformer, который представляет собой тип архитектуры глубокого обучения для задач обработки естественного языка (NLP). Они используют механизм внутреннего внимания для преобразования входной последовательности в набор контекстно-зависимых многомерных векторов (также известных как вложения), которые можно использовать для различных задач НЛП, включая генерацию языка, машинный перевод и классификацию текста. Наиболее известными LLM на основе трансформаторов являются семейство GPT, разработанное OpenAI. Основное преимущество LLM на основе преобразователя перед традиционными моделями NLP заключается в том, что они легко распараллеливаются и могут более эффективно обрабатывать дальние зависимости между словами в предложении. Это делает их более подходящими для задач, требующих более глубокого понимания контекста, таких как обобщение текста или создание связного и беглого текста.

Давайте рассмотрим историю и текущее состояние генеративного ИИ, а также ключевых игроков, формирующих его будущее.

Революция генеративного ИИ

Генеративный ИИ существует уже несколько лет. Одним из самых ранних примеров является чат-бот Eliza, разработанный Джозефом Вейценбаумом в 1966 году. Однако эти ранние реализации основывались на подходе, основанном на правилах, который имел несколько недостатков, таких как ограниченный словарный запас, отсутствие контекста и чрезмерная зависимость от шаблонов. В результате они были подвержены частым сбоям, что затрудняло настройку и расширение этих первоначальных чат-ботов.

В последнее время в области искусственного интеллекта и машинного обучения был достигнут значительный прогресс, что привело к разработке передовых систем генеративного искусственного интеллекта. Не случайно эти прорывы произошли одновременно. Они основаны на новом классе моделей ИИ, невероятно гибких и мощных, превосходящих все, что мы видели раньше. В глубоком обучении есть три критически важных компонента, которые в наибольшей степени способствовали их недавнему успеху: модели масштабирования, большие наборы данных и большая вычислительная мощность — все они работают вместе, чтобы привести нас к этому захватывающему этапу развития ИИ.

Прогресс в графических процессорах и их применение в машинном обучении

Графические процессоры предназначены для параллельной обработки, что делает их хорошо подходящими для ресурсоемких задач, связанных с обучением глубоких нейронных сетей. В отличие от центральных процессоров, ориентированных на последовательную обработку, графические процессоры имеют тысячи ядер меньшего размера, которые могут одновременно выполнять несколько задач, что позволяет быстрее обучать большие сети. Ключевым прорывом в машинном обучении стало интуитивное понимание того, что графические процессоры можно использовать для нейронных сетей, а также прогресс в области программного обеспечения, такой как выпуск Nvidia CUDA в 2007 году, языка программирования, который позволил использовать графические процессоры в качестве компьютеров общего назначения.

Alexnet — 2012 — Революция глубокого обучения

Современная революция в области искусственного интеллекта началась в 2012 году с пошагового прогресса в области глубокого обучения и сверточных нейронных сетей (СНС), которые оказались особенно эффективными при решении задач компьютерного зрения. Хотя CNN существуют с 1990-х годов, они не были практичными из-за высоких требований к вычислительной мощности. Однако в 2009 году исследователи искусственного интеллекта из Стэнфорда представили ImageNet, набор данных с помеченными изображениями, используемый для обучения алгоритмов компьютерного зрения, и ежегодное испытание. В 2012 году AlexNet объединила CNN, обученные на графических процессорах, с данными ImageNet, чтобы создать самый совершенный на тот момент визуальный классификатор. Модель превзошла модель, занявшую второе место, со значительным отрывом почти на 11%! Успех CNN, набора данных ImageNet и графических процессоров привел к значительному прогрессу в компьютерном зрении.

Трансформеры: Внимание — это все, что вам нужно (Google) — 2017

Одной из критических областей, где глубокое обучение отставало, была обработка естественного языка (NLP), которая включает в себя то, чтобы компьютеры понимали и поддерживали связный разговор с людьми, а не перевод или классификацию. Для преодоления этого разрыва были необходимы прорывы в области НЛП. Ранее исследователи полагались на такие модели, как рекуррентные нейронные сети (RNN) и долговременную кратковременную память (LSTM) для обработки и анализа данных, основанных на времени. Эти модели умели распознавать короткие последовательности, такие как произнесенные слова, но испытывали трудности с более длинными предложениями и абзацами. Архитектурные недостатки этих моделей не позволяли отразить сложность и богатство идей, возникающих при объединении предложений в более крупные текстовые блоки.

Значительным прорывом в области искусственного интеллекта стала разработка компанией Google модели «Трансформер» с очень популярной статьей «Внимание — это все, что вам нужно». Эта модель стала важной вехой, поскольку она произвела революцию в подходе к проблемам перевода, используя механизм, называемый «внимание»: особая нейронная сеть, которая позволяла модели анализировать всю входную последовательность и определять соответствие каждому компоненту вывода. В последующие годы трансформеры оказались передовыми моделями и для многих других задач НЛП, а в последнее время и для других областей, таких как компьютерное зрение.

Предсказание следующего слова, масштабирование и точная настройка — семейство BERT (Google) и GPT (OpenAI) — 2018 г.

С развитием Transformers ключевым дальнейшим прорывным открытием стала возможность обучения на неструктурированных данных с помощью цели прогнозирования следующего слова в содержимом веб-сайта. Были представлены такие модели, как BERT и GPT-2. Это обеспечило удивительные возможности и «нулевую производительность» при выполнении новых задач, для которых модель не была обучена. OpenAI также продолжал исследовать возможность повышения производительности этих моделей с увеличением масштаба и увеличением количества обучающих данных.

Одной из основных проблем, с которыми столкнулись исследователи, было получение правильных данных для обучения. ImageNet, коллекция из ста тысяч помеченных изображений, потребовала значительных человеческих усилий. Несмотря на обилие текстов, доступных в Интернете, создание значимого набора данных для обучения компьютеров работе с человеческим языком помимо отдельных слов — процесс, требующий много времени. Кроме того, метки, созданные для одного приложения с использованием тех же данных, могут не применяться к другой задаче. Благодаря достижениям BERT и первой версии GPT мы начали использовать огромное количество неструктурированных текстовых данных, доступных в Интернете, и вычислительную мощность графических процессоров. OpenAI еще больше продвинула этот подход, разработав модели GPT-2 и GPT-3, которые являются сокращением от «генеративного предварительно обученного преобразователя». Эти модели специально разработаны для генерации новых слов в ответ на ввод и предварительно обучены на большом количестве текста с использованием цели прогнозирования следующего мира.

Еще одним ключевым прорывом в этих больших моделях преобразования является концепция «точной настройки» — или адаптации большой модели к новым, более конкретным задачам или новому меньшему и целевому набору данных — для повышения производительности в конкретной области с гораздо меньшими затратами на вычисления, чем обучение. новая модель с нуля. Например, базовая языковая модель, такая как GPT-3, может быть точно настроена на наборе данных медицинских документов, чтобы создать модель обработки медицинских документов, настроенную на инструкции. Эта модель будет лучше понимать медицинскую терминологию, идентифицировать медицинские объекты и извлекать соответствующую информацию из медицинских текстов.

Настройка инструкций — Instruct GPT и ChatGPT (OpenAI) — 2022 г.

Самым последним достижением, которое привело к сегодняшнему ландшафту генеративного ИИ, является концепция настройки инструкций — использование модели, которая только что была обучена предсказывать следующее слово текстового документа, — и обучение ее (посредством точной настройки) тому, чтобы фактически следовать за человеком. инструкции и предпочтения. Это значительно упростило взаимодействие с этими LLM и заставило их отвечать на вопросы и выполнять задачи, не отвлекаясь на попытки предсказать следующее слово. Удачной особенностью настройки инструкций является то, что она не только помогает повысить точность и возможности этих моделей, но также помогает привести их в соответствие с человеческими ценностями и помогает предотвратить создание нежелательного или опасного контента.

Конкретный метод OpenAI для настройки инструкций называется обучением с подкреплением с обратной связью с человеком (RLHF), когда люди используются для обучения модели путем ранжирования ее ответов. Опираясь на Instruction Tuning, OpenAI выпустила ChatGPT, который реорганизовал настройку инструкций в формат диалога и создал простой в использовании интерфейс для взаимодействия с ИИ. Это катализировало массовое осознание и принятие продуктов генеративного ИИ и привело к тому ландшафту, который мы имеем сегодня.

Текущий ландшафт LLM

Прорывы в генеративном ИИ оставили нам чрезвычайно активный и динамичный ландшафт игроков. Сюда входят 1) производители оборудования для ИИ, такие как Nvidia и Google, 2) облачные платформы ИИ, такие как Azure, AWS, Nvidia и Google, 3) платформы с открытым исходным кодом для доступа к полным моделям, такие как Hugging Face, 4) доступ к LLM. модели через API, такие как OpenAI, Cohere и Anthropic, и 5) доступ к LLM через потребительские продукты, такие как ChatGPT и Bing. Кроме того, каждую неделю в этой вселенной происходит еще много прорывов, таких как выпуск мультимодальных моделей (которые могут понимать как текст, так и изображение), новых архитектур моделей (таких как Mixture of Experts), моделей агентов (моделей, которые могут ставить задачи). и взаимодействовать друг с другом и другими платами).

Все это приводит ко многим вопросам, таким как;

Как большинство людей будет взаимодействовать с LLM?
Кто будет ведущими игроками в будущем?
Насколько быстро будут расширяться возможности этих моделей?
Опасны ли модели с открытым исходным кодом из-за отсутствия контроля над их выводами и использованием, или они выгодны из-за демократизации доступа к этой технологии?

Ведущие модели LLM (от низкой до высокой стоимости обучения)

1. Модели OpenAI GPT

Известные модели

Модели для конкретных задач

Информацию о модели ищите здесь: https://platform.openai.com/docs/models/gpt-3

Модели изображений и аудио

OpenAI, компания, стоящая за моделями GPT, занимается исследованиями и внедрением ИИ. Лаборатория в Сан-Франциско была основана в 2015 году как некоммерческая организация с целью создания искусственного общего интеллекта (AGI), который, по сути, является программным обеспечением, столь же умным, как и люди. OpenAI проводит инновационные исследования в различных областях ИИ, таких как глубокое обучение, обработка естественного языка, компьютерное зрение и робототехника, а также разрабатывает технологии и продукты ИИ, предназначенные для решения реальных проблем.

OpenAI превратилась в коммерческую компанию в 2019 году. Компания планирует ограничить прибыль инвесторов фиксированным кратным их инвестициям (по словам Сэма Альтмана, в настоящее время он находится в диапазоне от 7x до 100x в зависимости от даты инвестиционного раунда и риска). Согласно WSJ, OpenAI изначально финансировался за счет благотворительных фондов в размере 130 миллионов долларов (Илон Маск написал в Твиттере, что он внес 100 миллионов долларов) и с тех пор привлек не менее 13 миллиардов долларов под руководством Microsoft (где OpenAI использует облачные кредиты Azure). Благодаря партнерству с Microsoft ChatGPT OpenAI вместе с собственным поисковым ИИ Microsoft создали улучшенную версию Bing и преобразовали приложения Microsoft Office для повышения производительности.

В 2019 году OpenAI выпустила GPT-2, модель, которая могла генерировать реалистичный человеческий текст в целых абзацах с внутренней согласованностью, в отличие от любой из предыдущих моделей. Следующее поколение, ОПТ-3, запущенное в 2020 году, было обучено 175 миллиардам параметров. GPT-3 — это многоцелевой языковой инструмент, к которому пользователи могут получить доступ, не требуя от них изучения языка программирования или других компьютерных инструментов. В ноябре 2022 года OpenAI выпустила ChatGPT, которая представляет собой улучшенную версию более ранних моделей генерации текста компании с возможностью генерировать человеческую прозу.

После успеха ChatGPT (GPT 3.5) Open AI выпустила в марте 2023 года GPT-4, обладающий мультимодальными возможностями. Модель обрабатывает как изображения, так и текстовые входные данные для генерации текста. Модель имеет максимальное количество токенов 32 768, способных генерировать около 25 000 слов по сравнению с GPT-3.5, который имеет размер контекста 4096 токенов. GPT-4 дает на 40 % больше фактических ответов, а процент ответов на запрещенный контент снизился на 82 % по сравнению с предыдущими моделями. (сообщается OpenAI)

2. Модели Palm от Google

Google AI, ранее известный как Google Research, является подразделением Google по исследованиям и разработкам в области искусственного интеллекта. Он был представлен на конференции Google I/O 2018. Компания Google представила множество наиболее важных статей о прорывах в современном машинном обучении. Самой крупной общедоступной моделью Google является языковая модель Pathways (PaLM), которая, вероятно, недавно была развернута в чат-боте Bard.

PaLM использовался в качестве базовой модели в нескольких проектах Google, включая PaLM-Flan, настроенный для инструкций, и недавний PaLM-E (первая «воплощенная» мультимодальная языковая модель).

Предварительное обучение PaLM включало самостоятельное обучение рисованию из большого текстового корпуса, который включал многоязычные веб-страницы (27%), английские книги (13%), репозитории с открытым исходным кодом и исходный код из GitHub (5%). многоязычные статьи в Википедии (4%), новостные статьи на английском языке (1%) и другие разговоры в социальных сетях (50%). PaLM преуспела в 28 из 29 задач НЛП в производительности с несколькими выстрелами, опередив предыдущие более крупные модели, такие как GPT-3 и Chinchilla.

Варианты PaLM масштабируются до 540 миллиардов параметров (по сравнению с GPT-3 с 175 миллиардами) и обучаются на 780 миллиардах токенов (по сравнению с GPT-3 с 300 миллиардами) — в общей сложности примерно в 8 раз больше вычислительных возможностей, чем у GPT-3 (но, вероятно, значительно меньше, чем у GPT-4). ). PaLM обучался на нескольких модулях TPU v4. Будучи плотной моделью Transformer только для декодера, PaLM обучается на двух модулях TPU V4, подключенных через сеть центра обработки данных, и использует комбинацию параллелизма модели и данных. Исследователи использовали 3072 чипа TPU v4 в каждом модуле, подключенном к 768 хостам. Эта большая конфигурация TPU позволяет эффективно масштабировать обучение без использования конвейерного параллелизма. Система Pathways позволяет масштабировать модель с помощью тысяч чипов Tensor Processing Unit от Google.

3. Модель шиншиллы DeepMind

DeepMind Technologies, основанная в 2010 году, — британская исследовательская лаборатория искусственного интеллекта. Она стала дочерней компанией Alphabet Inc. в 2015 году после ее приобретения Google в 2014 году. DeepMind создала нейронную сеть или нейронную машину Тьюринга, которая пытается воспроизвести кратковременную память человеческого мозга.

В 2016 году программа DeepMind AlphaGo победила профессионального игрока в го, а их программа AlphaZaro победила самые мощные программы в играх го и сёги. Программа приобрела компетентность с помощью обучения с подкреплением. В 2020 году программа DeepMind AlphaFold начала продвигаться вперед в решении проблемы сворачивания белков и к июлю 2022 года предсказала более 200 миллионов белковых структур. В апреле 2022 года была запущена программа Flamingo, единая программа модели визуального языка, способная описать любую картинку. Три месяца спустя, в июле 2022 года, было объявлено о DeepNash; как безмодельная многоагентная система обучения с подкреплением.

В марте 2022 года DeepMind разработала языковую модель под названием Chinchilla AI, которая, как утверждается, превосходит GPT-3. Ключевым прорывом в статье Chinchilla было то, что предыдущие LLM обучались на слишком небольшом количестве данных — для заданного размера параметра оптимальная модель должна использовать гораздо больше обучающих данных, чем GPT-3. В то время как для сбора большего количества данных для обучения требуется больше времени и это приводит к увеличению затрат на обучение, создание более эффективных моделей для меньшего размера параметра имеет огромные преимущества для затрат на логические выводы (затраты, необходимые для запуска и использования готовой модели, которые масштабируются с размером параметра).

Chinchilla имеет параметры 70B (на 60% меньше, чем GPT-3) и обучалась на 1400 токенах (4,7x GPT-3). Средний уровень точности Chinchilla AI составляет 67,5% при измерении массового многозадачного понимания языка (MMLU) и превосходит другие платформы с большими языковыми моделями, такие как Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing. NLG (300 параметров и 530B параметров) для широкого спектра последующих задач оценки.

4. Модель Мегатрона Тьюринга от Microsoft и Nvidia

Nvidia — компания, разрабатывающая GPU и API для обработки данных и высокопроизводительных вычислений, а также SoC для мобильных вычислений и автомобильного рынка. Компания является ведущим поставщиком аппаратного и программного обеспечения для искусственного интеллекта. Кроме того, CUDA API от Nvidia позволяет создавать массовые параллельные программы, использующие GPU.

Модель Мегатрон-Тьюринг, разработанная исследовательской группой NVIDIA в области прикладного глубокого обучения в 2021 году, состоит из 530 миллиардов параметров и 270 миллиардов обучающих токенов. Nvidia предоставила доступ через программу раннего доступа для своей управляемой службы API к своей модели MT-NLG.

Nvidia сделала многие из своих моделей и услуг LLM и Generative AI доступными через свою новую облачную платформу DGX.

5. Модели лам Меты

Meta AI, ранее известная как Facebook Artificial Intelligence Research (FAIR), представляет собой лабораторию искусственного интеллекта, целью которой является совместное использование фреймворков, инструментов, библиотек и моделей с открытым исходным кодом для исследований и крупномасштабного развертывания производства. В 2018 году они выпустили PyText с открытым исходным кодом, среду моделирования, ориентированную на системы НЛП. Затем, в августе 2022 года, они объявили о выпуске BlenderBot 3, чат-бота, предназначенного для улучшения разговорных навыков и безопасности. В ноябре 2022 года Meta разработала большую языковую модель под названием Galactica, которая помогает ученым в таких задачах, как обобщение научных статей и аннотирование молекул и белков.

Выпущенная в феврале 2023 года LLaMA (мета-ИИ для крупной языковой модели) представляет собой основанную на преобразовании базовую модель крупного языка от Meta, которая затрагивает как ИИ, так и академические пространства. Модель призвана помочь исследователям, ученым и инженерам продвинуть свою работу по изучению приложений ИИ. Он будет выпущен под некоммерческой лицензией для предотвращения неправомерного использования, и доступ будет предоставлен академическим исследователям, частным лицам и организациям, связанным с правительством, гражданским обществом, академическими кругами и отраслевыми исследовательскими центрами на выборочной основе в каждом конкретном случае. . Совместное использование кодов и весов позволяет другим исследователям тестировать новые подходы в LLM.

Модели LLaMA имеют диапазон от 7 до 65 миллиардов параметров. LLaMA-65B можно сравнить с Chinchilla от DeepMind и PaLM от Google. Для обучения этих моделей использовались общедоступные немаркированные данные, а для обучения небольших базовых моделей требуется меньше вычислительной мощности и ресурсов. LLaMA 65B и 33B были обучены на 1,4 трлн токенов на 20 разных языках, и, по данным группы Facebook по исследованию искусственного интеллекта (FAIR), производительность модели зависит от языка. Источники данных, использованные для обучения, включали CCNet (67%), GitHub, Wikipedia, ArXiv, Stack Exchange и книги. LLaMA, как и другие крупномасштабные языковые модели, имеет проблемы, связанные с предвзятым и токсичным генерированием и галлюцинациями.

6. Модели Eleuther GPT-Neo

Основанная в июле 2020 года Коннором Лихи, Сидом Блэком и Лео Гао, EleutherAI представляет собой некоммерческую исследовательскую лабораторию ИИ. Организация стала ведущим игроком в крупномасштабных исследованиях обработки естественного языка с упором на интерпретируемость и выравнивание. крупных моделей. Их миссия состоит в том, чтобы гарантировать, что возможность изучения базовых моделей не ограничивается несколькими компаниями, продвигать нормы открытой науки в НЛП и повышать осведомленность о возможностях, ограничениях и рисках, связанных с этими моделями.

В декабре 2020 года EleutherAI курировала набор данных с разнообразным текстом для обучения LLM под названием Куча, который состоял из набора данных объемом 800 ГБ. Впоследствии, в марте 2021 года, выпустили модели GPT-Neo. EleutherAI также выпустила GPT-J-6B в июне 2021 года, которая представляет собой языковую модель с 6 миллиардами параметров, что делает ее крупнейшей на тот момент моделью с открытым исходным кодом, подобной GPT-3. Кроме того, они объединили CLIP с VQGAN для разработки бесплатной модели создания изображений, которая легла в основу Stability AI. EleutherAI также обучает языковые модели на других языках, таких как Polyglot-Ko, которые были обучены в сотрудничестве с корейской компанией NLP TUNiB.

EleutherAI использовал облачную программу TPU Research Cloud от Google, но к 2021 году они получили финансирование от CoreWeave. Компания также использует TensorFlow Research Cloud для более дешевых вычислительных ресурсов. В феврале 2022 года EleutherAI выпустила модель GPT-NeoX-20b, которая на тот момент стала крупнейшей языковой моделью с открытым исходным кодом любого типа. В январе 2023 года компания была официально зарегистрирована как некоммерческий исследовательский институт.

Модель EleutherAI NLP, GPT-NeoX-20B, обучается на 20 миллиардах параметров с использованием платформы GPT-NeoX компании и графических процессоров от CoreWeave. Модель GPT-NeoX-20B имеет точность 72% при завершении предложений LAMBADA. При измерении точности нулевого выстрела для ствола с использованием оценки теста Хендрикса она составила в среднем 28,98%. Модель использует набор данных Pile для обучения и состоит из данных из 22 источников, которые подпадают под следующие 5 категорий: академическое письмо (Pubmed Abstracts и PubMed Central, arXiv, FreeLaw, USPTO Backgrounds, PhilPapers, NIH Exporter), веб-скрейпы и Интернет. ресурсы (CommonCrawl, OpenWebText2, StackExchange, Wikipedia-English), проза (BookCorpus2, Bibliotik, Project Gutenberg), диалоги (субтитры Youtube, Ubuntu IRC, OpenSubtitles, Hacker News, EuroParl) и прочее (GitHub, набор данных DeepMind Mathematics, Enron электронные письма).

GPT-NeoX-20B является общедоступной и предварительно обученной языковой моделью авторегрессионного преобразователя общего назначения. Это мощный резонер с несколькими выстрелами с 44 слоями и размером скрытого измерения 6144 и 64 головок. Кроме того, он использует 1.1. Вращающиеся позиционные вложения вместо изученных позиционных вложений, как в моделях GPT.

7. XLarge Коэра

Основанная в 2019 году Айданом Гомесом, Иваном Чжаном и Ником Фросстом компания Cohere из Торонто специализируется на моделях обработки естественного языка (NLP). Cohere улучшил взаимодействие человека и машины и помог разработчикам выполнять такие задачи, как обобщение, классификация, поиск сходства в содержании и создание собственных языковых моделей. API Cohere помогает пользователям разрабатывать инструменты для понимания языка и предлагает набор инструментов для интеграции несколькими способами.

Cohere предоставляет два типа больших языковых моделей: языковые модели генерации и языковые модели представления. Компания использует базовую модель для обучения систем ИИ на крупномасштабных данных, что позволяет им учиться на новых данных для выполнения различных задач. Генеративный ИИ направлен на разработку человекоподобных творений с помощью кодирования, и Cohere конкурирует с поставщиками аналогичных моделей, такими как OpenAI и Anthropic, при этом отличительной чертой является акцент на обслуживании корпоративных пользователей при внедрении генеративного ИИ. Цель Cohere — сделать НЛП доступным для всех, создавая безопасные в использовании машины.

В сентябре 2021 года Cohere привлекла $40 млн, а через несколько месяцев, в ноябре 2021 года, Google Cloud объявила о партнерстве с Cohere. Компания намерена использовать TPU Cloud для разработки и развертывания своих продуктов, а Sagemaker от Amazon также предоставляет доступ к языковому AI Cohere. Cohere поддерживает Hyperwrite, который помогает быстро создавать статьи. AWS также объявила о партнерстве с Cohere AI. На сегодняшний день Cohere привлекла 170 миллионов долларов, и с учетом продолжающегося притока финансирования платформ ИИ ожидается, что канадский стартап будет оценен в 6 миллиардов долларов.

Cohere собирается представить новую модель диалога, чтобы помочь корпоративным пользователям генерировать текст, взаимодействуя с моделью для точной настройки вывода. Модель Xlarge Cohere напоминает ChatGPT, но предоставляет разработчикам и предприятиям доступ к этой технологии. Базовая модель Cohere имеет 52 миллиарда параметров по сравнению с моделью OpenAI GPT-3 DaVinci, которая имеет 175 миллиардов параметров.

Cohere делает упор на точность, скорость, безопасность, стоимость и простоту использования для своих пользователей и уделяет большое внимание продукту и его дизайну, разрабатывая целостную модель.

8. Клод из Anthropic AI

Anthropic — американский стартап в области искусственного интеллекта и общественная корпорация, основанная в 2021 году Даниэлой Амодеи и Дарио Амодеи, бывшими членами OpenAI. Компания специализируется на разработке систем искусственного интеллекта и языковых моделей, уделяя особое внимание архитектуре-трансформеру. Исследования Anthropic в области интерпретируемости систем машинного обучения охватывают, среди прочего, различные области, от естественного языка и интерпретируемости до обратной связи с человеком, законов масштабирования, обучения с подкреплением и генерации кода. Компания делает упор на ответственное применение искусственного интеллекта и позиционирует себя как компания, занимающаяся исследованиями и безопасностью искусственного интеллекта, работающая над созданием надежных, управляемых и интерпретируемых систем искусственного интеллекта.

К 2022 году Google инвестировала в Anthropic почти 400 миллионов долларов, что привело к официальному партнерству между двумя компаниями и предоставлению Google 10% акций Anthropic. Внешняя поддержка составила 580 миллионов долларов, а общий объем инвестиций в Anthropic на сегодняшний день превышает 1 миллиард долларов.

Компания Anthropic разработала чат-бота с ИИ для разговорной широкоязычной модели под названием Claude, который использует интерфейс обмена сообщениями и технику, называемую конституционным ИИ, для лучшего согласования систем ИИ с человеческими намерениями. AnthropicLM v4-s3 — это авторегрессионная модель с 52 миллиардами параметров, обученная без присмотра на большом текстовом корпусе. Десять принципов, используемых Anthropic, основаны на концепциях благодеяния, непричинения вреда и автономии. Клод способен выполнять различные задачи в диалоге и обработке текста, такие как обобщение, поиск, творческое и совместное письмо, вопросы и ответы и программирование. С ним легко общаться, он более управляем и принимает указания относительно личности, тона и поведения.

Anthropic предлагает две версии Claude — Claude (Claude-v1) и Claude Instant. Claude-v1 — это мощная современная высокопроизводительная модель, способная обрабатывать сложные диалоги, создавать творческий контент и подробные инструкции. Claude Instant легче, дешевле и намного быстрее, что делает его подходящим для обработки случайных диалогов, анализа текста и обобщения. Однако Клод — дорогая платформа по сравнению с ChatGPT.

Anthropic ручается за Claude как за честную, полезную и безвредную систему искусственного интеллекта, которая с гораздо меньшей вероятностью будет производить вредные результаты, чем современные чат-боты, которые, как известно, токсичны, предвзяты, используют оскорбительные выражения и галлюцинируют. По словам Anthropic, Клод не может получить доступ к Интернету, он спроектирован так, чтобы быть автономным и обученным, чтобы избегать сексистских, расистских и других токсичных материалов, а также предотвращать участие людей в незаконных и неэтичных действиях. Однако по сравнению с ChatGPT Клод плохо разбирается в математике и программировании. Тем не менее, платформа также была замечена в галлюцинациях и давала сомнительные инструкции. Еще одна серьезная проблема заключается в том, что встроенные функции безопасности Клода можно взломать с помощью умных подсказок.

Эмбарго на освещение Клода в СМИ было снято в январе 2023 года, а в феврале был опубликован список ожидания пользователей, которым нужен ранний доступ к Клоду. Клод теперь доступен и доступен для пользователей через Poe app от Quora. Кроме того, Discord Juni Tutor Bot, решение для онлайн-обучения, работает на платформе Anthropic. Кроме того, Клод нашел интеграцию с Notion, DuckDuckGo, RobinAI, Assembly AI и другими.

9. Юрские модели AI21

AI21 Labs специализируется на обработке естественного языка для разработки генеративных моделей ИИ, которые могут понимать и генерировать текст. Стартап из Тель-Авива был основан в 2017 году Йоавом Шохамом, Ори Гошеном и Амноном Шашуа. AI21 стал конкурентом OpenAI. В 2019 году стартап привлек $9,5 млн, а в октябре 2020 года; он запустил Wordtune, приложение для письма на основе искусственного интеллекта. AI21 Labs запустила AI21 Studio и Jurassic-1 в августе 2021 года. Затем Walden Catalyst инвестировала 20 миллионов долларов в AI21 Labs в ноябре, вскоре после чего компания завершила раунд серии A на 25 миллионов долларов под руководством Pitango First. AI21 привлекла 64 миллиона долларов в следующем раунде финансирования. В январе AI21 Labs запустила Wordtune Spices, а в марте 2023 года — Jurassic-2.

Модель Юрский период-1 от AI21 Labs генерирует человекоподобные тексты и выполняет сложные задачи, такие как ответы на вопросы, классификация текстов и другие. Модель Jurassic-1 выпускается в двух размерах. Jurassic-1 Jumbo содержит 178 миллиардов параметров. Модель использует уникальный словарь из 250 000 токенов и включает в себя токены из нескольких слов, что снижает потребность модели в использовании большого количества токенов и, таким образом, повышает эффективность вычислений и снижает задержку. Jurassic-1 позволяет разработчикам обучать пользовательские версии модели всего на 50–100 обучающих примерах, помогая пользователям создавать настраиваемые приложения и службы. Jurassic-1 в частности использовалась Latitude для масштабирования производства своего игрового мира, Harambee для создания собственного чат-бота для увеличения количества регистраций в своих программах занятости молодежи, а также Verb для создания инструмента письма для авторов.

Следующая итерация Jurassic (Юрский-2) представляет собой настраиваемую языковую модель. Он имеет всестороннюю настройку инструкций на проприетарных данных, что дает ему расширенные возможности следования инструкциям. Модель поддерживает такие языки, как испанский, французский, немецкий, португальский, итальянский и голландский. По сравнению с моделью Jurassic-1 время отклика у него на 30 % меньше, что значительно снижает задержку. Jurassic-2 имеет три размера, каждый из которых имеет отдельную версию с инструкциями — Large, Grande и Jumbo. Jurassic-2 помогает пользователям создавать виртуальных помощников и чат-ботов, а также помогает в упрощении текста, модерации контента, творческом написании и т. д. Jurassic-2 также имеет возможности обучения с нуля. Модель может похвастаться самыми последними знаниями и актуальной базой данных, а обучение основано на данных, обновленных в середине 2022 года, по сравнению с ChatGPT, который закрыл свою базу данных к концу 2021 года. Jurassic-2 поставляется с пять API-интерфейсов, созданных для компаний, которым нужны специально адаптированные функции генеративного ИИ. API-интерфейсы включают инструменты для перефразирования, обобщения, проверки грамматики, сегментации длинных текстов по темам и рекомендаций по улучшению. В Стэнфордской комплексной оценке языковых моделей (HELM) Jurassic-2 Jumbo занимает второе место с процентом побед 86,8%. Jurassic-2 доступен бесплатно до 1 мая 2023 года.

10. Модель ERNIE от Baidu

Baidu, базирующаяся в Пекине, — известная китайская компания, специализирующаяся на искусственном интеллекте. В 2019 году Baidu запустила мощную языковую модель ИИ под названием Ernie (Расширенное представление посредством интеграции знаний), исходный код которой был открыт вместе с кодом и предварительно обученной моделью на основе PaddlePaddle.

С момента своего создания Ernie претерпел значительные улучшения и теперь может выполнять широкий спектр задач, таких как понимание языка, генерация языка и генерация текста в изображение. ERNIE был разработан для улучшения языковых представлений путем реализации стратегий маскирования знаний, таких как маскирование на уровне сущностей и маскирование на уровне фраз. Baidu запустила ERNIE 2.0 в июле 2019 года, в котором была представлена система непрерывного предварительного обучения. Эта структура постепенно создает и изучает задачи посредством постоянного многозадачного обучения. ERNIE 3.0 был представлен в начале 2021 года и представил унифицированную структуру предварительного обучения, которая позволяет проводить предварительное обучение в рамках многозадачных парадигм. В отличие от других моделей, таких как GPT-3, ERNIE 3.0 продемонстрировала независимые от задачи возможности обучения с нуля и с несколькими шагами и может быть легко адаптирована для понимания естественного языка и задач генерации с обучением с нулевым выстрелом, обучением с несколькими шагами или точным обучением. тюнинг. В конце 2021 года Baidu выпустила ERNIE 3.0 Titan, предобучающую языковую модель с 260 миллиардами параметров, которые были обучены на массивных неструктурированных данных.

Baidu разработала ERNIE Bot, свою последнюю модель большого языка (LLM) и продукт для генеративного ИИ. Он призван служить базовой платформой искусственного интеллекта, которая может способствовать интеллектуальным преобразованиям в различных отраслях, включая финансы, энергетику, СМИ и связи с общественностью. Доступ к ERNIE Bot в настоящее время ограничен приглашенными пользователями, и ожидается, что API будет доступен для корпоративных клиентов через Baidu AI Cloud после подачи заявки (по состоянию на 16 марта).

Baidu стремится использовать возможности ERNIE Bot, чтобы произвести революцию в своей поисковой системе, занимающей доминирующее положение в Китае. Кроме того, ожидается, что ERNIE Bot повысит эффективность работы в различных основных отраслях, включая облачные вычисления, умные автомобили и бытовую технику.

Аппаратное обеспечение и облачные платформы

Тензорное ядро Nvidia H100, их графический процессор для центров обработки данных девятого поколения, содержит 80 миллиардов транзисторов и оптимизирован для крупномасштабных моделей искусственного интеллекта и высокопроизводительных вычислений (HPC). A100, предшественник Nvidia H100, является одним из лучших графических процессоров для глубокого обучения. Существуют также Tensor Processing Units (TPU) Google, которые представляют собой специализированные интегральные схемы (ASIC) для конкретных приложений-ускорителей, используемые для эффективных рабочих нагрузок машинного обучения и тесно интегрированные с TensorFlow, платформой машинного обучения Google.

Google Cloud Platform открыла доступность TPU v4 в облаке, специально разработанного для ускорения рабочих нагрузок NLP, а также разработала TPU v5 для внутреннего использования. Microsoft Azure также предлагает экземпляры графических процессоров на базе графических процессоров Nvidia, таких как A100 и P40, которые можно использовать для различных рабочих нагрузок машинного обучения и глубокого обучения. Еще одним ключевым событием является партнерство между Microsoft Azure и OpenAI, которое предоставило OpenAI ресурсы для обучения как GPT-3, так и GPT-4, что привело к доступности этих моделей для разработчиков в их приложениях через облачную инфраструктуру Azure. AWS предоставляет доступ к графическим процессорам, таким как инстансы Amazon Elastic Compute Cloud (EC2) P3, которые предлагают до 8 графических процессоров Nvidia V100 с 5120 ядрами CUDA и 300 ГБ памяти графического процессора. AWS также разработала собственные чипы для логического вывода (Inferentia) и обучения (Trainium).

На основе этих вычислительных и облачных систем было разработано несколько передовых моделей, включая BERT, RoBERTa, Bloom, Megatron и семейство GPT. BERT — одна из первых предварительно обученных моделей, включающая архитектуру преобразователя и обеспечивающая самые современные результаты во многих задачах НЛП. RoBERTa — это вариант BERT, обученный на гораздо большем наборе данных с более эффективной процедурой обучения. Наконец, Bloom — это многоязычная модель открытого доступа, содержащая 176 миллиардов параметров и обученная на 384 графических процессорах A100–80GB.

Растущая доступность специализированного оборудования для задач NLP представляет собой значительное развитие программ облачных вычислений. Благодаря наличию этих инструментов компании теперь могут обучать и запускать модели, которые раньше было невозможно построить.

Примечание об открытом исходном коде

Усилия LLM с открытым исходным кодом продвигаются вперед, как с точки зрения открытых наборов данных, так и моделей с открытым исходным кодом, доступных для точной настройки и использования каждым. Общий потенциал моделей с открытым исходным кодом очень многообещающий. Они обеспечивают более глубокий доступ к LLM для всех, а не только с помощью API. Однако определенно есть вопросы о повышенных рисках моделей, которые не были согласованы и более гибки для адаптации к гнусным случаям использования, таким как дезинформация.

Усилия ИИ, такие как The Pile от Eleuther и набор данных LAION-5B от LAION, способствовали быстрому прогрессу в моделировании текста и изображений. Многие компании и группы также делают базовые модели доступными с помощью наборов данных с открытым исходным кодом, таких как модель Блума от Big Science и стратегическое партнерство между Hugging Face и Amazon Web Services (AWS), которое увеличивает доступность наборов данных с открытым исходным кодом. и модели, размещенные на Hugging Face. Stability AI также поддерживает работу EleutherAI по изучению больших языковых моделей, в то время как проект Laion включает краудсорсинговые аннотации для своего проекта репликации OpenAssistant ChatGPT. Кроме того, Carper разработала рабочие процессы RLHF с открытым исходным кодом, начиная от аннотации человеком с помощью CHEESE и заканчивая обучением RLHF с использованием пакета trlX.

Генеративный ИИ применяется к другим модальностям

По некоторым показателям генеративный ИИ, с которым сталкиваются потребители, стал самой быстрорастущей технологической тенденцией всех времен, когда появляются различные модели для генерации изображений, текста и кода. Например, Discord от MidJourney привлек около 13 миллионов участников для создания изображений, в то время как ChatGPT, как сообщается, привлек более 100 миллионов пользователей в течение нескольких месяцев после выпуска. Случаи использования разработки программного обеспечения также значительно увеличились: более 1,2 миллиона разработчиков использовали предварительную техническую версию GitHub Copilot по состоянию на сентябрь.

1. Генерация изображения: Dall-E | середина пути | Стабильная диффузия | ДримСтудио

Сочетание моделей, данных и вычислений предоставило невероятный набор инструментов для работы с изображениями. DALL-E от OpenAI — это система искусственного интеллекта, которая использует глубокое обучение и языковые модели преобразования для создания цифровых изображений из описаний на естественном языке. Он использует модель преобразователя только для декодера, которая моделирует текст и изображения как единый поток данных, содержащий до 256 токенов для текста и 1024 для изображений. Затем нейронная сеть авторегрессивно моделирует их. DALL-E — это версия GPT-3 с 12 миллиардами параметров. Модель использует каузальную маску для текстовых токенов и разреженное внимание для токенов изображений. DALL-E 2 способен создавать изображения с более высоким разрешением и использует визуальное мышление с нулевым кадром. Он может создавать антропоморфные версии, заполнять пробелы и преобразовывать существующие образы. Однако DALL-E использует общедоступные наборы данных в качестве данных для обучения, что может повлиять на его результаты и часто приводит к алгоритмическим ошибкам.

Midjourney — программа искусственного интеллекта, разработанная независимой исследовательской лабораторией Midjourney, Inc. Платформа использует описания на естественном языке для создания изображений, и пользователи могут создавать изображения с помощью команд бота Discord на официальном сервере Discord. 16 марта 2023 года была выпущена бета-версия 5. Пользователи могут генерировать изображения, вводя команду /imagen с последующим запросом, и бот создает четыре изображения, из которых пользователь выбирает изображение, которое он хочет масштабировать. Midjourney Inc. также разрабатывает веб-интерфейс.

Stable Diffusion — это модель изображения с открытым исходным кодом, финансируемая Stability AI, которая генерирует изображения из текста и выполняет такие задачи, как закрашивание, закрашивание и создание переводов изображений в изображения. Он использует модель скрытой диффузии, поддерживаемую EleutherAI и LAION. Для этого требуется как минимум 8 ГБ видеопамяти, что делает его независимым от облачных сервисов. Stable Diffusion 2.0 был выпущен в ноябре 2022 года и обучен на парах изображений и подписей из LAION-5B и его подмножеств.

DreamStudio — это официальная онлайн-реализация и API командного интерфейса для Stable Diffusion, разработанная Stability AI. DreamStudio и Stable Diffusion имеют несколько разные интерфейсы, несмотря на то, что они являются приложениями одной и той же технологии. Веб-приложение было запущено в августе 2022 года и заменило бесплатного бота Discord. Веб-приложение предлагает лучшую функциональность и стабильность, используя алгоритм стабильной диффузии для создания изображений на основе запроса пользователя. Доступ к DreamStudio API предоставляется за плату. Одной из ключевых особенностей DreamStudio является поддержка отрицательных подсказок. Он также позволяет пользователям перерисовывать, копировать, изменять и распространять изображения в коммерческих целях.

2. Генерация звука: шепот | АудиоГен | АудиоLM

Whisper, разработанная OpenAI, представляет собой универсальную систему автоматического распознавания речи, которая поддерживает многоязычное распознавание речи, перевод речи и идентификацию языка. Он был обучен на 680 000 часов многоязычных и многозадачных контролируемых данных с использованием Python 3.9.9 и PyTorch 1.10.1, и ожидается, что кодовая база будет совместима с Python 3.8–3.10 и последними версиями PyTorch. Он использует модель преобразования кодер-декодер, которая использует 30-секундные фрагменты входного аудио, преобразованные в логарифмические спектрограммы Мела, которые затем передаются кодировщику. Декодер предсказывает соответствующий текстовый заголовок и смешивает специальные токены для выполнения различных задач. Whisper предоставляет модель с открытым исходным кодом и коды логического вывода для исследований в области обработки речи и разработки новых приложений. Поскольку почти треть его набора данных не на английском языке, Whisper превосходит контролируемое современное состояние CoVoST2 для перевода на английский язык с нулевым выстрелом.

AudioLM от Google — это чистая аудиомодель, которая использует языковое моделирование для создания высококачественного звука без аннотированных данных. Он генерирует продолжения речи, которые сохраняют идентичность, просодию и акцент говорящего и условия записи, а также могут генерировать связные продолжения фортепианной музыки. Модель демонстрирует долговременную согласованность синтаксиса, гармонии, ритма и мелодии и имеет потенциал для расширения на многоязычную речь, полифоническую музыку и звуковые события. AudioLM использует гибридную схему токенизации и нейронный кодек SoundStream для повышения точности. Модель достигла 51,2% успеха от оценщиков-людей, а аудиоклассификатор с точностью 98,6% был обучен обнаруживать синтетическую речь, сгенерированную AudioLM. В настоящее время AudioLM доступен только для исследовательских целей и не является общедоступным.

Искусственный интеллект Meta AudioGen преобразует текстовые подсказки в аудиофайлы. Это звуковая параллель искусственного интеллекта, генерирующего изображения, такого как DALL-E. Он использует языковую модель искусственного интеллекта и примерно 4000 часов обучающих данных для создания окружающих звуков, звуковых событий и их композиции. Кроме того, он может расширять существующий звук для создания элементарной музыки. Качество вывода звука было оценено на 70% через платформу Amazon Mechanical Turk. Однако в настоящее время AudioGen не может упорядочивать звуки во времени, а права собственности на сгенерированный звук неясны.

3. Поисковые системы: Неева | Ты

Neeva — это поисковая система на базе искусственного интеллекта, которая обеспечивает приватный поиск без рекламы. Он достигает этого с помощью собственных LLM и стека поиска, а также блокирует сторонние трекеры веб-сайтов и не передает информацию о пользователях. Уникальной особенностью Neeva являются сводки ИИ, которые содержат синтезированные ответы, подкрепленные цитируемыми источниками. Он также позволяет пользователям выполнять поиск в личных учетных записях электронной почты, календарях и платформах облачного хранения. Эта функция сочетает в себе лучшие аспекты LLM, таких как ChatGPT, с авторитетностью и своевременностью. Однако он работает только с запросами-вопросами и имеет ограничения для бесплатной версии (премиум-план стоит 4,95 доллара в месяц). Neeva имеет более 2 миллионов пользователей и версии на местных языках в Германии, Франции и Испании.

You.com — это поисковая система из Калифорнии, которая использует мультимодальный диалоговый ИИ для группировки веб-результатов по категориям веб-сайтов, отсортированных по предпочтениям пользователей. Он был запущен для публичной бета-версии в ноябре 2021 года с упором на конфиденциальность и персонализацию. Он предлагает YouWrite, текстовый генератор, и YouChat, чат-бот с приложениями, созданными сообществом, и смешанные LLM. You.com не собирает личную информацию пользователей и предлагает личный и частный режимы поиска. Результаты поиска позволяют пользователям создавать контент непосредственно из результатов поиска, укрепляя доверие и надежность.

4. Генерация кода: второй пилот | Кодекс

GitHub Copilot — это инструмент, который помогает разработчикам программировать, используя ИИ для преобразования естественного языка в предложения по кодированию. Он основан на OpenAI Codex, что позволяет ему понимать стиль кодирования разработчика и предлагать решения, зависящие от контекста. Когда разработчики вводят в систему желаемую логику, GitHub Copilot может автоматически генерировать предложения по коду. Однако важно отметить, что эти предложения являются всего лишь предложениями, и разработчик должен решить, использовать их или нет.

OpenAI Codex — это модель обработки естественного языка, основанная на GPT-3 и способная генерировать рабочий код на нескольких языках программирования, таких как Python, JavaScript и Ruby, среди прочих. Для обучения Codex использовались миллиарды строк исходного кода из общедоступных источников, а также данные на естественном языке, включая код из репозиториев GitHub. Он имеет память 14 КБ для кода Python и представляет собой мощную систему с преобразователем, которая может эффективно и действенно выполнять задачи разработчиков.

5. Генерация текста: Джаспер

Jasper.AI — это модель генерации текста на основе подписки, которая требует минимального ввода от пользователя и выполняет поиск в Интернете для получения желаемого результата. Это особенно полезно для создания короткого текста, где важны ограничения на количество символов. Платформа предлагает более 50 шаблонов, включая описания продуктов, строки темы электронной почты и заголовки Facebook, среди прочего. Кроме того, это может помочь с генерированием идей для постов в блоге и созданием более качественных набросков. Однако у Jasper.AI есть некоторые недостатки, такие как отсутствие проверки фактов и цитирования источников, что может привести к галлюцинациям. Кроме того, изучение ввода команды для достижения желаемого результата может занять некоторое время.

Заключение

Генеративный ИИ — это революционная технология, способная изменить многие аспекты нашей жизни. Имейте в виду, что при разработке этих моделей все еще существуют проблемы, такие как большие наборы данных, вычислительная мощность, высокая стоимость обучения и доступность. Исследования показали, что многие большие языковые модели недостаточно обучены. Кроме того, меньшие наборы данных по-прежнему имеют решающее значение для повышения производительности LLM в задачах, специфичных для предметной области. Оптимизация затрат на вычисления также важна, поскольку генеративные модели, особенно большие языковые модели, по-прежнему дороги как для обучения, так и для вывода. Крупные игроки отрасли работают над оптимизацией затрат на вычисления на всех уровнях.

Безопасность и безопасность остаются насущными проблемами при разработке генеративного ИИ, и ключевые игроки учитывают отзывы людей, чтобы сделать модели более безопасными с самого начала. Альтернативы с открытым исходным кодом также необходимы для расширения доступа к моделям LLM следующего поколения для практиков и независимых ученых, чтобы расширить границы.