| В КОНТЕКСТНОМ ОБУЧЕНИИ | БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ| LLM

Все, что вам нужно знать об обучении в контексте

Что такое и как это работает, что делает большие языковые модели такими мощными

«Для меня контекст является ключевым — из него приходит понимание всего». — Кеннет Ноланд

Контекстное обучение (ICL) — один из самых удивительных модельных навыков. Наблюдение с помощью GPT-3 привлекло внимание авторов. Что такое ICL? Что еще более важно, что порождает его?

Эта статья разделена на разные разделы, для каждого раздела мы ответим на следующие вопросы:

  • Что такое контекстное обучение (ICL)? Почему это интересно? Почему это полезно?
  • Тайна ICL: как это работает? Данные тренировки? это подсказка? это архитектура?
  • Каково будущее ICL? Каковы оставшиеся проблемы?

Проверьте список ссылок в конце статьи, я также даю некоторые предложения по углублению тем.

Что такое контекстное обучение (ICL)?

«Границы моего языка означают границы моего мира». — Людвиг Витгенштейн

До публикации больших языковых моделей (LLM) модель искусственного интеллекта была ограничена данными, на которых она обучалась. Иными словами, LLM могли решать только те задачи, на которые рассчитано их обучение.

GPT-3 и сегодняшние LLM, с другой стороны, демонстрируют новую способность: способность осваивать новые навыки и решать новые задачи, просто предоставляя новые примеры на входе (подсказке). Кроме того, в этом случае мы не обучаем модель; нет обновления градиента или изменения параметров модели. Этот навык называется Обучение в контексте (ICL).