BloombergGPT: первая крупноязыковая модель для финансов

После удивительного успеха ChatGPT различные отрасли теперь разрабатывают свои собственные модели GPT, адаптированные к их конкретным областям.

Финансовый мир всегда управлялся данными, но в последние годы объем и сложность этой информации выросли в геометрической прогрессии. В результате потребность в передовых моделях искусственного интеллекта, способных понимать и обрабатывать уникальный язык финансов, стала как никогда важной. 30 марта 2023 г. агентство Bloomberg опубликовало документ, в котором рассказывается о BloombergGPT, большой языковой модели с 50 миллиардами параметров, специально обученной на широком спектре финансовых данных.

Ссылка на статью: https://arxiv.org/pdf/2303.17564.pdf

Модель способна решать следующие задачи:

Создание языка запросов Bloomberg (BQL)
Предоставление предложений для заголовков новостей
Отвечаем на финансовые вопросы

1. Общий обзор:

BloombergGPT — это высокопроизводительный LLM для финансового НЛП, достигаемый путем смешивания во время обучения данных, специфичных для предметной области, и данных общего назначения.
Язык запросов Bloomberg (BQL) — это язык запросов, используемый для доступа и анализа финансовых данных на платформе Bloomberg. BQL — это мощный, но сложный инструмент, который можно использовать для различных задач, таких как поиск данных, анализ данных, создание отчетов и генерация идей. BloombergGPT может преобразовывать запросы на естественном языке в действительный язык запросов Bloomberg (BQL), чтобы сделать взаимодействие с финансовыми данными более естественным.
Языковая модель может предлагать заголовки новостей, что делает ее полезной для новостных приложений и помогает журналистам в создании информационных бюллетеней. Он принимает абзацы в качестве входных данных и предлагает соответствующий заголовок для них.

2. Зачем финансовой индустрии нужен ИИ?

Финансовая индустрия всегда была ориентирована на данные и требовала больших объемов данных, поскольку развитие технологий увеличило объем данных, собираемых финансовыми учреждениями.

Чат-боты: чат-боты на базе искусственного интеллекта, интегрированные с обработкой естественного языка (NLP), взаимодействуют с клиентами круглосуточно и без выходных, а также улучшают онлайн-общение.
Обнаружение и предотвращение мошенничества. До недавнего времени банки полагались на традиционные, основанные на правилах системы мониторинга транзакций и проверки имен по борьбе с отмыванием денег (AML), которые генерируют большое количество ложных срабатываний. В связи с тревожным ростом числа преступлений, связанных с мошенничеством, и постоянно меняющимися схемами мошенничества к существующим системам добавляются усовершенствованные компоненты искусственного интеллекта, позволяющие выявлять ранее необнаруженные модели транзакций, аномалии данных и подозрительные отношения между физическими и юридическими лицами.
Управление кредитными рисками. Поскольку регулирующие органы продолжают уделять внимание надзору за управлением рисками, финансовые учреждения обязаны разрабатывать более надежные модели и решения. Использование ИИ для управления кредитными рисками становится все более популярным, особенно на рынке финансовых технологий и цифрового банкинга.
Прогнозная аналитика.Появление машинного обучения (МО) и искусственного интеллекта открыло двери для точного прогнозирования и прогнозирования. Аналитика данных и искусственный интеллект применяются для прогнозирования доходов, прогнозов цен на акции, мониторинга рисков и управления делами.
Управление взаимоотношениями с клиентами. Управление взаимоотношениями с клиентами
является важным фактором для банков. В настоящее время банки предоставляют более персонализированные круглосуточные услуги отдельным клиентам, такие как функции распознавания лиц и голосовых команд для входа в финансовые приложения.

3. Архитектура BloombergGPT

Эта модель представляет собой каузальную языковую модель BLOOM на основе декодера . Модель содержит 70 уровней блоков преобразователя декодера, определенных следующим образом:

где SA — многоголовое самообслуживание, LN — нормализация уровня, а FFN — сеть прямой связи с 1 скрытым уровнем.

Вложения входных токенов привязаны к линейному отображению перед окончательным softmax. Модель имеет дополнительную нормализацию слоя после встраивания токенов:

где h_0 — начальное встраивание токена, а LN_em — новый компонент нормализации слоя встраивания. Обратите внимание, что второй член включает две последовательные нормализации слоев.

Чтобы использовать BLOOM в локальной системе:https://huggingface.co/docs/transformers/model_doc/bloom#transformers.BloomModel

Для разработки BloombergGPT группа продуктов и исследований ML сотрудничала с командой AI Engineering, чтобы создать один из самых больших наборов данных для предметной области. Они прошли обучение по существующим ресурсам Bloomberg по созданию, сбору и обработке данных, используя свой обширный архив финансовых данных для создания комплексного набора данных из 363 миллиардов токенов, состоящего из финансовых документов на английском языке. Затем они дополнили эти данные общедоступным набором данных на 345 миллиардов токенов, чтобы создать обучающий корпус с более чем 700 миллиардами токенов.

Годовое распределение данных:

Показатели эффективности Bloomberg-GPT:

Используемые ориентиры оценки:

Задачи, используемые для оценки финансовых задач:

Результаты по (общие, NER, анализ настроений, ответы на вопросы):

Оценка с использованием стандарта BIG-Bench 3 выстрела:

Оценка с использованием 1 выстрела и 5 выстрелов:

Сводка результатов:

По десяткам задач во многих тестах вырисовывается четкая картина. Среди моделей с десятками миллиардов параметров, которые мы сравниваем, лучше всего работает Bloomberg-GPT. Хотя цель Bloomberg-GPT
состояла в том, чтобы стать лучшей в своем классе моделью для финансовых задач, и они включали данные обучения общего назначения для поддержки обучения в конкретной предметной области, модель достигла возможностей на данных общего назначения, которые превосходят модели аналогичного размера.

Технический директор Bloomberg Шон Эдвардс (Shawn Edwards) сказал: «BloombergGPT позволит нам работать со многими новыми типами приложений, в то же время обеспечивая гораздо более высокую производительность, чем пользовательские модели для каждого приложения, при более быстром выходе на рынок. ”

Гидеон Манн, руководитель группы продуктов и исследований Bloomberg по машинному обучению, объяснил, что качество машинного обучения и моделей НЛП зависит от данных, которые вы в них вкладываете, и благодаря коллекции финансовых документов, которую Bloomberg собирал на протяжении десятилетий, они смогли тщательно создать большой и чистый набор данных для предметной области для обучения LLM, который лучше всего подходит для финансовых вариантов использования.

Заключение:

BloombergGPT меняет правила игры в финансовой индустрии. Благодаря впечатляющим 50 миллиардам параметров и обучению в конкретной предметной области он превосходит другие модели больших языков в финансовых задачах НЛП. Ожидается больший прогресс, поскольку они обучают и оптимизируют обучение работе с финансовыми данными.