Тонкая настройка вашего LLM без максимального использования графического процессора

Как вы можете точно настроить свои LLM с ограниченным оборудованием и ограниченным бюджетом

Спрос на индивидуальные LLM

С успехом ChatGPT мы стали свидетелями всплеска спроса на заказные большие языковые модели.

Однако на пути к усыновлению возникло препятствие. Поскольку эти модели настолько велики, компаниям, исследователям или любителям со скромным бюджетом было сложно настроить их для своих собственных наборов данных.

Теперь, благодаря инновациям в методах тонкой настройки с эффективным использованием параметров (PEFT), появилась возможность тонкой настройки больших языковых моделей при относительно низких затратах. В этой статье я покажу, как этого добиться в Google Colab.

Я ожидаю, что эта статья окажется полезной для практиков, любителей, учащихся и даже основателей стартапов.

Итак, если вам нужно смоделировать дешевый прототип, проверить идею или создать крутой проект по науке о данных, чтобы выделиться из толпы — продолжайте читать.

Почему мы делаем тонкую настройку?

Компании часто имеют частные наборы данных, которые управляют некоторыми из их процессов.

Чтобы привести вам пример, я работал в банке, где мы регистрировали жалобы клиентов в электронной таблице Excel. Аналитик отвечал за классификацию этих жалоб (вручную) для целей отчетности. Этот процесс, связанный с рассмотрением тысяч жалоб каждый месяц, отнимал много времени и был подвержен человеческим ошибкам.

Если бы у нас были ресурсы, мы могли бы точно настроить большую языковую модель для выполнения этой категоризации за нас, сэкономив время за счет автоматизации и потенциально уменьшив количество неправильных категоризаций.

Вдохновленный этим примером, оставшаяся часть этой статьи демонстрирует, как мы можем точно настроить LLM для категоризации жалоб потребителей на финансовые продукты и услуги.

Набор данных

Набор данных содержит данные о реальных жалобах потребителей на финансовые услуги и продукты. Это открытые общедоступные данные, опубликованные Бюро финансовой защиты прав потребителей.

Существует более 120 тысяч анонимных жалоб, разделенных примерно на 214 «подпроблем».

Тонкая настройка вашего LLM без максимального использования графического процессора

Как вы можете точно настроить свои LLM с ограниченным оборудованием и ограниченным бюджетом

Спрос на индивидуальные LLM

Почему мы делаем тонкую настройку?

Набор данных

Вопросы по теме