Введение

30 ноября 2022 года знаменуется запуск ChatGPT и начало новой эры, когда ИИ, наконец, начнет тихое вторжение. Вместо того, чтобы быстро уничтожить человеческую расу с помощью оружия массового уничтожения, у нее есть более коварный подход: сделать детей ленивыми, делая за них домашнюю работу, и медленно увеличивать уровень безработицы, сокращая различные рабочие места. Одни в восторге, другие напуганы. Хотя обе эти реакции оправданы, мы хотели бы решить множество проблем, связанных с большими языковыми моделями, такими как ChatGPT, и их использованием, которые все еще требуют решения, прежде чем окончательно присоединиться к одной из этих сторон.

Прежде чем углубляться в детали, давайте сначала поговорим о том, что мы понимаем под большой языковой моделью. Большие языковые модели (далее сокращенно LLM) — это искусственные нейронные сети, обученные на огромном массиве текстов, например, на статьях из Википедии, просканированном контенте с веб-страниц и книг. Целью обучения такой модели является получение общих знаний о языке в этом корпусе, таких как синтаксис, семантика и т. д. После первоначального обучения сеть можно настроить для выполнения конкретных последующих задач. Например, вы можете знать, как говорить по-французски — какое предложение является грамматически правильным и в каком порядке должны стоять слова (предварительная подготовка), но не иметь ни малейшего представления о том, как классифицировать бабочек по семействам Lycaenidae и Riodinidae, не изучив предварительно необходимые критерии (тонкая настройка).

Хотя существует огромное количество LLM с разными именами (ChatGPT, BLOOM, LLAMA и т. д.), большинство из них имеют базовые архитектуры одного из двух типов: BERT (представления двунаправленного кодировщика от преобразователей) и GPT (генеративный предварительно обученный преобразователь). Основное различие между ними заключается в том, что BERT пытается предсказать токен, учитывая как предшествующий, так и последующий контекст, в то время как GPT принимает во внимание только предшествующий контекст. Например. для предложения "Сообщения о моей [MASK] были сильно преувеличены".BERT пытается найти подходящего кандидата для замены токена [MASK] (рис. 1), но GPT стремится выполнить данное приглашение, генерируя наиболее вероятную последовательность продолжения (рис. 2).

Хотя большие языковые модели даже не ограничены строго этими двумя типами, большинство разговоров о LLM в последнее время, как правило, вращаются только вокруг моделей, подобных GPT, из-за успеха ChatGPT от OpenAI и его многочисленных родственников. Хотя LLM получили широкое распространение только после выпуска ChatGPT, в архитектуре этих моделей не произошло каких-либо существенных изменений с момента появления в 2017 году моделей, основанных на внимании, называемых Transformers. Так что же произошло? Простой ответ: МНОГО данных и тонкой настройки.

Хотя эти модели оказались довольно мощными инструментами для решения множества различных проблем, все же существует ряд вещей, с которыми следует быть осторожными. Вопросы варьируются от воздействия на творческие отрасли до экологических затрат на обучение таких огромных моделей, но мы в основном сосредоточены на использовании LLM в качестве автономных единиц в отраслевых пайплайнах.

Итак, о каких потенциальных подводных камнях следует знать?

1. Есть ли реальная необходимость в генеративном LLM?

Как упоминалось в предыдущей главе, генеративные LLM — это только один тип LLM, но для простоты в дальнейшем мы будем использовать этот термин только в отношении генеративных моделей.

Генеративные LLM хорошо подходят для решения широкого круга сложных проблем, но во многих случаях существует более простое и более подходящее решение. Самолеты намного быстрее, чем велосипеды, но вы бы воспользовались личным самолетом, чтобы купить продукты на ближайшем рынке? Аналогично с полетом на самолете есть время и место для использования LLM. Например, из LLM получаются отличные чат-боты и составители сюжетов, хотя с этими приложениями также необходимо учитывать проблемы, которые будут рассмотрены в следующих главах. Однако мы заметили, что энтузиазм, проистекающий из практического опыта работы с ChatGPT, имеет тенденцию создавать мнение, что LLM — лучшее решение для ВСЕХ задач, связанных с обработкой естественного языка. Например, мы слышали о предложении использовать LLM для простой задачи бинарной классификации, которую можно решить с помощью предложения «если-иначе». Более того, даже при решении более сложных задач старомодные методы или низкопробные LLM-кузены, такие как BERT, как правило, имеют преимущество, когда дело доходит до анализа фактических затрат. Например, генеративные LLM можно использовать для обнаружения токсичного контента, для огромных моделей, таких как ChatGPT, даже без примеров (хотя политика контента иногда блокирует некоторые запросы, содержащие определенные слова-триггеры). Однако его использование в реальных пайплайнах модерации комментариев может оказаться намного дороже, чем использование какой-либо более мелкой и простой модели классификации.

2. Баланс между затратами и хорошими результатами

Так что старым добрым регулярным выражением или классическим методом машинного обучения проблему не решить, а необходимость в использовании LLM действительно есть — какие есть варианты?

а) Используйте его через API — ChatGPT предлагает тарифные планы, начиная с 0,03 $ за 1000 входных токенов для своей лучшей модели и даже более дешевые варианты для других. Хотя сама цена на первый взгляд может показаться более чем разумной, но… так ли это на самом деле? Опять же, это зависит от фактической сложности проблемы и наличия жизнеспособных альтернативных решений, но если ежедневные объемы данных достаточно велики, может быть намного более рентабельно обучать и/или использовать свои собственные более мелкие и проблемно-ориентированные модели. Может быть немного неудобно маркировать данные и обучать модель, когда вы можете просто пропустить эти шаги с подключением к API, но эти небольшие неудобства в начале окупятся позже. Например, мы подсчитали, что замена наших локально размещенных моделей на API GPT-4 приведет к тому, что ежемесячные расходы будут в два раза выше, чем мы получаем от клиента, использующего наш сервис.

Кроме того, есть еще один недостаток: использование стороннего приложения обычно не подходит для обработки конфиденциальных данных. Если конфиденциальность данных не является проблемой, все равно существует определенный уровень опасности, связанный с зависимостью вашего приложения от сторонней службы. Что, если вы построите вокруг него весь свой продукт, а сервис внезапно отключится? Кроме того, цена может быть повышена после того, как достаточное количество клиентов станет зависимым от приложения. Недостаток Final API заключается в том, что на самом деле трудно проверить, что модель за кулисами останется той же, на которую вы подписались — некоторые пользователи Reddit, отслеживающие ответы, заметили внезапное падение качества, начавшееся около недели назад, и предположили, что это может быть связано с понижением версии моделей, чтобы не отставать от затрат на их размещение (https://www.reddit.com/r/ChatGPT/comments/14xzohj/the_worlds_mostpowerful_ai_model_suddenly _получил/).

б) Настройте LLM в своей собственной инфраструктуре — хотя лучшие модели OpenAI не имеют открытого исходного кода, существует множество альтернатив, которые утверждают, что они не уступают ChatGPT. Однако размещение таких огромных моделей недешево — например, для безотказной работы модели LLaMA с 65 миллиардами параметров требуется несколько графических процессоров Nvidia A100 (или их эквивалентов) стоимостью около 10 000 долларов каждый. Хотя есть модели меньшего размера с меньшими требованиями к оборудованию, они также имеют значительно меньшие возможности по сравнению с огромными моделями, такими как ChatGPT.

3. Юридические вопросы

На данный момент есть несколько судебных дел против OpenAI Inc, которые могут оказать существенное влияние на то, как LLM обучаются и могут быть использованы. Например, есть коллективный иск об авторских правах, в котором утверждается, что ChatGPT обучается на книгах без разрешения авторов. «В жалобе, поданной в федеральный суд Сан-Франциско в среду, говорится, что обучающий набор данных ChatGPT для машинного обучения получен из книг и других текстов, которые «скопированы OpenAI без согласия, без указания авторства и без компенсации». В жалобе цитируется документ OpenAI от 2020 года, представляющий ChatGPT-3, в котором говорится, что 15 % обучающего набора данных поступает из «двух книжных корпусов в Интернете». Авторы утверждают, что один из этих наборов данных книг, который содержит более 290 000 наименований поступает из «теневых библиотек», таких как Library Genesis и Sci-Hub, которые используют торрент-системы для незаконной публикации тысяч произведений, защищенных авторским правом. ”

Помимо использования в обучающих данных материалов, защищенных авторским правом, существует еще одно нарушение закона, с которым трудно бороться: доработка лицензионных моделей и выпуск их под другим именем и лицензией.

4. Правила

Отсутствие прецедентов и правил в области ИИ делает рискованным инвестирование в такие конвейеры, когда это может регулироваться в ближайшие месяцы и годы. Например, ЕС в настоящее время находится в процессе формирования первого комплексного законодательства для ИИ:

5. Галлюцинации и трудности в проверке

Знания LLM строго ограничены данными, на которых он обучался. Например, текущая версия ChatGPT не содержит данных об обучении после 2021 года и, следовательно, не дает понимания того, что произошло с тех пор. Кроме того, даже если LLM должен быть в состоянии правильно ответить на вопрос, он все равно может галлюцинировать, пытаясь ответить, что делает их интеграцию в клиентские интерфейсы несколько опасной. В некоторых случаях модель честно заявляет, что не знает ответа или осознает, что их знания могут быть устаревшими. Например, если ChatGPT попросить назвать победителя последнего чемпионата мира по футболу, он ответит, что победителем стала Франция, но также заявит, что предельным сроком сбора информации является сентябрь 2021 года и что с тех пор, возможно, были проведены последующие чемпионаты мира. Однако может вполне уверенно выражать и полную чушь или, что еще хуже, чушь, смешанную с долей правды. На рис. 3 показан пример последнего: хотя имена некоторых персонажей действительно верны (Арно Тали, Йоосеп Тутс), их описания совершенно неверны.

Существуют методы борьбы с этой проблемой, такие как использование внутренних баз данных для запроса контекста, но настройка таких конвейеров требует некоторых дополнительных разработок и, в конце концов, все равно не гарантирует 100% точности. Кто-то может возразить, что достичь абсолютной точности с помощью любого метода машинного обучения крайне сложно, так почему же некоторые неверные ответы вдруг приобретают больший вес? Во-первых, сложнее «исправить» генеративные LLM — с помощью более простых методов обычно можно получить некоторое представление о том, что вызывает неправильный ответ, и найти какую-то закономерность во входных данных, с которой модель борется больше всего. После этого можно собрать обогащенный набор данных и переобучить модель. Теоретически то же самое можно сделать и с генеративными LLM, но для этого требуется гораздо больше знаний о внутренней работе модели. Во-вторых, может быть трудно проверить, правильный ответ или нет — когда модель ранее правильно ответила на множество вопросов, мы можем быть более склонны верить в это, особенно когда нам не хватает знаний и / или ресурсов, чтобы критически оценить ответ самостоятельно. Кроме того, модели, как правило, используют очень уверенный стиль при формулировании ответов, что, в свою очередь, еще больше затрудняет сомнение в их знаниях.

Заключение

Генеративные LLM могут быть полезными инструментами, но прежде чем сделать их неотъемлемой частью ваших услуг, желательно подумать, действительно ли они являются лучшим и единственным решением. Предстоящие правила могут ограничить способы их использования, а текущие юридические проблемы могут затормозить дальнейшее развитие наиболее коммерчески успешных моделей. Кроме того, более простые методы могут оказаться лучшими и более доступными, особенно когда речь идет об обработке конфиденциальных данных. Это не означает, что LLM следует полностью игнорировать: люди каждый день работают над тем, чтобы сделать решения с открытым исходным кодом лучше и доступнее за счет уменьшения размера моделей без существенного ущерба для качества. Так что сохраняйте открытый, но немного критический ум!