Как более широкое контекстное окно раскрыло потенциал LLM

Последние LLM (большие языковые модели) генеративного ИИ, такие как Claude2 из Anthropic, привнесли ряд усовершенствований в науку о данных и машинное обучение, что привело к повышению производительности и более точным ответам. Доступные через API или такие веб-сайты, как claude.ai, эти модели демонстрируются как эффективный персональный помощник, который может легко следовать и выполнять инструкции на естественном языке.

Роль токенов

Концепция токенов превратила Клода в передового игрока в области генеративного искусственного интеллекта. В своей последней версии Claude увеличил количество своих токенов с 9 000 до 100 000, и этот шаг приведет к некоторым значительным последствиям. Важно понять, как работают токены, прежде чем мы сможем понять, какую пользу Клоду принесло увеличение количества токенов.

Вопреки тому, что многие думают, LLM не предсказывает следующее слово в последовательности. Скорее, когда LLM произносит следующий токен, он обычно обозначает 3–4 символа. Некоторые токены могут представлять целое слово, а некоторые — нет. Чаще всего 100 токенов представляют около 75 слов.

Когда модель выполняет вывод, «под капотом» она разделяет входной текст на части и выполняет над ним ряд матричных вычислений. Эта концепция, называемая самовниманием, учитывает все токены в тексте, чтобы определить, как каждый из этих токенов влияет на остальные. Внимание к себе позволяет модели понять, что означает текст и его контекст, и соответствующим образом сформулировать свой ответ.

Обратной стороной этого механизма является то, что процесс становится трудоемким. Математически требования к вычислениям квадратичны входной длине. Это означает, что чем длиннее текст, подаваемый в качестве входных данных, называемый контекстным окном, тем больше ресурсов требуется для работы с моделью, включая время обучения и вывода.

Техническое ограничение вынудило исследователей ограничить разрешенный размер входных данных, подаваемых в модели, до стандартной пропорции от 2000 до 8000 токенов. Ограничение контекста негативно повлияло на способность LLM влиять на нашу повседневную жизнь.

Раскрытие потенциала LLM

Увеличение размера контекстного окна — это волшебная палочка, которая сделала Claude2 таким эффективным, открывая его самую мощную функцию — контекстное обучение. У студентов LLM есть возможность изменить правила игры — учиться на лету.

Обучение LLM представляет собой сложную задачу, поскольку вам необходимо передать им свои данные, что может нанести ущерб вашей конфиденциальности. Более того, с каждым днем накапливается все больше данных. Если бы LLM не были способны учиться на ходу, было бы проблемой постоянно обучать модель. Это бы просто уничтожило LLM как экономическое обоснование.

К счастью, студенты LLM обладают уникальной способностью контекстного обучения. Они могут учиться, не изменяя веса модели.

Так как же это меняет сценарий? LLM могут научиться отвечать на запрос без фактического обучения. Им просто нужно предоставить необходимые данные, и они дадут ответ.

Эта концепция, которая предполагает ответы на запросы на основе данных, которые LLM раньше не видел, называется обучением с нулевым выстрелом. В некоторых случаях LLM может потребоваться просмотреть данные несколько раз, прежде чем он сможет ответить. Это обучение за несколько кадров.

Способность LLM давать ответы на более сложные запросы зависит от размера контекстного окна. Оно пропорционально объему данных, которые он может передать. Меньшие контекстные окна хорошо подходили для простых задач, но они просто не справлялись с более сложными задачами.

Как увеличение контекстного окна меняет игру

Claude версии 1.3 может обрабатывать 100 000 токенов или около 75 000 слов за один раз. Но просто констатация факта дает вам небольшое представление о том, как это изменило ландшафт. Так что лучше давайте рассмотрим это в контексте.

Сюда можно отнести любую книгу «Хроники Нарнии», поскольку количество слов в этих книгах не превышает 75 000. Он может включать в себя все диалоги нескольких голливудских фильмов вместе взятые.

Это дает окну чата возможность отвечать на любой вопрос на основе заданного текста. Например, вы можете поделиться с моделью 4-часовым подкастом и попросить ее резюмировать подкаст в нескольких предложениях или абзацах. Или вы можете задать любой вопрос из текста. Чат сможет ответить на все вопросы. Можно было бы конкретно указать, когда в подкасте было сделано конкретное заявление.

Для тех, кто регулярно просматривает огромное количество данных, такой чат станет идеальным решением. Ученые-исследователи и юристы будут рады узнать об этом.

Заключительные мысли

Контекстное окно определяет длину содержимого подсказки, которую модель ИИ будет обрабатывать для ответа на вопросы. На самом деле именно токены решают, как LLM разделяет слова на работоспособные биты. Например, слово «высший» можно разделить на «суп», «эри» и «или» в качестве токенов. Возможности в 100 000 токенов помогли Клоду совершить скачок.

Значительное увеличение размера окна контента экспоненциально ускорило возможности генеративных моделей ИИ, таких как ИИ. Клод, например, может просмотреть книгу и написать рецензию на нее менее чем за 60 секунд. Для сравнения, читатель-человек может прочитать текст из 100 000 токенов почти за пять часов. Им потребуется дополнительное время для обдумывания и анализа содержания.

Расширение окон содержимого может помочь извлекать информацию из обширной документации, позволяя предпринимателям и менеджерам эффективно вести бизнес. Можно даже сразу разместить контент из нескольких документов и задавать вопросы, требующие синтеза всего контента.

Как более широкое контекстное окно раскрыло потенциал LLM

Вопросы по теме