Устали от ограничения 2048, 4096, до 32768 токен-контекста GPT-3 и GPT-4? У Microsoft может быть ответ для вас (положительный ответ)

19 июля Microsoft опубликовала документ, который рассматривается как важный шаг вперед в развитии архитектур для разработки больших языковых моделей, которые могут иметь практически неограниченную длину контекста. Microsoft предложила и разработала модель преобразователя, которая теоретически может масштабироваться до миллиарда токенов. Это устраняет основное препятствие в практическом случае использования больших языковых режимов, также известных как «ограничение длины контекста».

В этой статье мы рассмотрим —

  1. Модели больших языков (LLM)
  2. "Запомнить меня! контекст имеет значение»
  3. Как добиться большего контекста
  4. Текущие сети для LLM
  5. Сложность масштабирования
  6. Решение Microsoft LongNet
  7. Распределенный трейнер
  8. Результаты и проверка масштабирования до токенов 1B
  9. Заключительные мысли

Итак, приступим.

Большие языковые модели (LLM)

Большие языковые модели — это модели глубокого обучения, которые являются глубокими и имеют миллионы, если не миллиарды, параметров. Эти модели обычно обучаются на корпусе «Общий текст» из Интернета. Такой корпус может иметь до триллиона токенов (т. е. если он существует в Интернете, текст использовался для обучения большой языковой модели).

Представьте себе большую матрицу, в которой каждое слово связано с каждым словом в заданной строке. Проще говоря, это внимание к себе. Мы заботимся о словах или размещении слов, которые имеют более сильную связь, потому что они могут предсказать следующее слово лучше, чем более слабая связь. Отношения могут иметь глубину 3 уровня или 30 уровней, это не будет иметь значения в общей схеме. Важно то, что внимание к себе определяет (хотя бы частично) следующий жетон. Токен — это слово или часть слова, и он часто используется как синоним функциональной единицы предложения.

Таким образом, большие языковые модели создают карту языка, где для заданного входного текста создается вывод на основе этой карты. Карта чрезвычайно сложная. Эта карта обычно представлена…