Большие предварительно обученные языковые модели (LLM) стали современной архитектурой глубокого обучения для широкого спектра приложений и продемонстрировали впечатляющие возможности обучения за несколько шагов при переносе на новые задачи. Однако эти модели обычно требуют процесса тонкой настройки, что влечет за собой дорогостоящие дополнительные…
Эпистемические нейронные сети DeepMind обеспечивают точную настройку модели большого языка с использованием на 50 % меньше данных
schedule
19.05.2024