В последние годы большие языковые модели (LLM) продемонстрировали сильную способность извлекать огромные объемы «глобальных» знаний из своих обучающих данных и продемонстрировали способность быстро адаптироваться к новой информации на основе заданных контекстов или подсказок. Несмотря на их впечатляющие возможности обучения «в контексте», их внутренние механизмы остаются недостаточно изученными…