TL-DR: агенты-критики, действующие по политике, показали лучшие результаты, чем другие классы агентов RL, в обнаружении более прибыльных торговых стратегий. Полный отчет об исследовании доступен здесь. Мы также опубликовали пакет Python с открытым исходным кодом для распределения активов. Попробуйте!

В финансах портфель представляет собой набор нескольких финансовых активов, таких как акции, облигации и денежные средства. Распределение активов (или управление портфелем) — это задача определения того, как оптимально распределить средства ограниченного бюджета на ряд ценных бумаг. Определение прибыльной торговой стратегии включает в себя принятие важных решений о распределении капитала по различным опционам на акции. Обычно это распределение делается для максимизации ожидаемого дохода при минимизации связанных инвестиционных рисков.

Обучение с подкреплением (RL) включает в себя обучение путем взаимодействия с окружающей средой во главе с определенной целью. Система RL состоит из двух основных частей: среды и агента. Средой может быть все, что обрабатывает действия агента и последствия этих действий. Действием может быть все, что агент может делать в среде. Например, в мире сетки [1] агент может двигаться влево, вправо, вниз, вверх или оставаться в текущем состоянии. Агент обучается без явного программирования, выбирая действия на основе предыдущего опыта [2]. Агент получает обратную связь в виде вознаграждения (или наказания) от окружающей среды. Вознаграждение — это числовое значение, возвращаемое агенту средой за то, что он находится в состоянии после выполнения действия. Награды показывают, является ли состояние ценным и насколько ценным является это состояние. Агент использует обратную связь, чтобы улучшить свою работу, чтобы максимизировать долгосрочную выгоду.

Агент RL может включать один или несколько из трех компонентов: политику, функцию значений и модель. Политика направляет принятие решений агентом в каждом состоянии. Это отображение между набором состояний и набором действий. Оптимальная политика обеспечивает наилучшие долгосрочные выгоды. Функция ценности определяет качество каждого состояния или пары состояние-действие. Модель представляет собой агентское представление среды, посредством которого агент предсказывает, что среда будет делать дальше [3]. Агенты RL можно разделить на разные классы в зависимости от того, какие из этих трех компонентов они имеют, как показано на рис. 1. Агенты RL на основе политик могут быть в соответствии с политикой или вне политики. Агенты RL, включенные в политику, анализируют ту же политику, которая использовалась для создания действия. С другой стороны, агенты RL вне политики анализируют политику, которая не обязательно совпадает с той, которая сгенерировала действие [4].

Распределение активов как проблема RL

Будучи студентами CMU-Africa¹, в сотрудничестве с исследовательской группой J.P. Morgan AI Research Team² мы провели исследование, чтобы определить эффективность RL в задаче распределения активов. Конкретными целями исследования были: обучение агентов RL на реальных ценах конечного набора акций для оптимального распределения конечного денежного бюджета по ряду ценных бумаг в портфеле, сравнение эффективности агентов RL с базовыми³ агентами и понимание какие классы агентов RL показали лучшие результаты при распределении активов.

Торговая среда была смоделирована как частично наблюдаемая и непрерывная. Ежедневные цены на акции Yahoo Finance были представлены в виде логарифмических доходов за период ретроспективного анализа. Период ретроспективного анализа — это окно фиксированного размера, используемое для управления объемом исторических данных, возвращаемых агенту в качестве наблюдения на каждом временном шаге. Торговые издержки были учтены в торговой среде. Для функции вознаграждения использовались логарифмические возвраты и дифференциальный коэффициент Шарпа. Агенты RL были выбраны по трем критериям. Во-первых, агент RL должен быть свободен от модели, поскольку основное внимание в этой работе уделяется RL без модели. Во-вторых, агент должен был использоваться в подобных работах в литературе. Наконец, агент должен поддерживать непрерывные действия и пространства состояний. В таблице 1 приведены различные агенты RL без модели, которые были исследованы в ходе этого исследования.

Эксперименты

В этом исследовании для обучения и тестирования использовались данные Dow Jones 30⁴ с января 2011 года по ноябрь 2021 года. Семьдесят процентов данных использовались для обучения, а тридцать процентов — для тестирования агентов RL. Были проведены эксперименты для сравнения восьми агентов RL в таблице 1 с базовыми моделями. Было проведено шесть серий экспериментов. Первый набор экспериментов включал использование логарифмической доходности и дифференциального коэффициента Шарпа в качестве функций вознаграждения. Второй набор экспериментов включал использование различных сценариев торговых издержек: отсутствие торговых издержек, 0,1% от цены акции и 1% от цены акции. Для всех экспериментов использовался трехмесячный ретроспективный период. Также было три тренировочных прогона и сто тестовых прогонов для каждого эксперимента. Пиковые и средние показатели каждого эксперимента сохранялись для анализа с использованием пяти показателей⁵.

Полученные результаты

Во-первых, мы стремились определить, могут ли агенты RL обнаружить торговые стратегии, которые выгодно конкурируют со стратегиями базовых агентов. На рис. 2 показано, что каждый агент RL работал лучше, чем простейшие базовые стратегии: случайное и равномерное распределение. Это означает, что агенты RL могли обнаружить торговые стратегии, которые были лучше, чем у базовых агентов. Кроме того, мы исследовали, существуют ли классы агентов RL, которые лучше справляются с обнаружением отличных торговых стратегий. На рисунке 2 показано, что четыре модели превзошли лучший базовый агент — MPT. Из этих четырех агентов трое были актерами-критиками и политическими агентами. Это четкий образец неизменно хорошей производительности, учитывая, что в исследовании участвовали еще три класса агентов. Наконец, мы сравнили торговые стратегии этих агентов. Мы нанесли на график среднее значение и стандартное отклонение весов портфеля при торговых издержках 0,1% для двух лучших агентов RL и лучшего базового агента (рис. 3–4).

На рис. 3 представлена ​​информация о том, как каждый агент распределял свой портфель среди доступных акций. Напротив, на рис. 4 представлена ​​информация о том, насколько каждый агент изменил распределение своего портфеля по каждой акции. Вместе эти графики объясняют стратегию распределения активов каждого агента. Существует четкая разница в стратегии между тремя агентами. Агент MPT распределил весь свой портфель по пяти акциям и держал один и тот же портфель в течение времени тестирования. Напротив, агент SAC распределил большую часть своего портфеля по шести акциям. Однако распределение веса портфеля по этим шести акциям значительно менялось в течение времени тестирования. У агента A2C был более распределенный портфель, но он значительно различался только по запасам определенных акций за время тестирования. Существует также минимальное сходство уровня запасов среди всех агентов. В таблице 3 показано, что агент SAC имел наилучшую стратегию, в то время как агенты A2C и MPT дали схожие результаты, при этом агент A2C немного превзошел агент MPT по показателям, связанным с риском. Сходство результатов агентов A2C и MPT, несмотря на их разные торговые стратегии, подтверждает общую теорию распределения активов, согласно которой разные рыночные стратегии могут давать одинаковые результаты.

Заключение

В этом исследовании изучалась производительность RL применительно к распределению активов с использованием агентов глубокого обучения с подкреплением без моделей. Мы обучили нескольких агентов RL работе с реальными ценами на акции, чтобы научиться распределять активы. Мы сравнили производительность этих агентов RL с некоторыми базовыми агентами. Мы также сравнили производительность агентов RL между собой, чтобы понять, какой класс(ы) агентов работает лучше. Согласно нашему анализу, агенты RL могут выполнять задачу распределения активов, поскольку они значительно превзошли двух базовых агентов (случайное распределение и равномерное распределение). Четыре агента RL (A2C, SAC, PPO и TRPO) превзошли лучший базовый уровень, MPT, в целом. Это показывает способность агентов RL раскрывать более прибыльные торговые стратегии. Актеры-критики, агенты по политике показали лучшие результаты, чем другие классы агентов. В будущей работе можно было бы изучить возможность распространения этого анализа на других агентов RL. Полный отчет по этому исследованию доступен здесь. Кроме того, мы опубликовали пакет Python с открытым исходным кодом для распределения активов.

Благодарности

Мы хотели бы поблагодарить Махмуда Махфуза, Суда Шриджана и Дэвида Вернона за их поддержку и неоценимое руководство на протяжении всего исследования.

  1. Авторы: Адебайо Ошингбесан, Эниола Аджибойе, Перут Камашази и Тимоти Мбака. Советник:Проф. Дэвид Вернон
  2. Дж.П. Команда Morgan AI Research Team: Махмуд Махфуз и Суд Шриджан
  3. Базовый план.Базовый план – это простая модель, которая обеспечивает разумные результаты выполнения задачи и не требует большого опыта и времени для построения. В этом исследовании базовыми линиями были: равномерное распределение, случайное распределение, покупка и удержание и современная теория портфеля (MPT).
  4. Dow Jones 30: 3M, American Express, Amgen, Apple, Boeing, Caterpillar, Chevron, Cisco Systems, Coca-Cola, Disney, Dow, Goldman Sachs, Home Depot, Honeywell, IBM, Intel, Johnson. и Johnson, JP Morgan Chase, McDonald's, Merck, Microsoft, Nike, Procter & Gamble, Salesforce, Travelers, UnitedHealth, Visa, Walgreens и Walmart.
  5. Показатели:доходность в годовом исчислении, совокупная доходность, коэффициент Шарпа, максимальная просадка и коэффициент Кальмара.

Рекомендации

[1] К. Бетанкур и У.Х. Чен, «Глубокое обучение с подкреплением для управления портфелем рынков с динамическим количеством активов», Экспертные системы с приложениями, том 164, с. 114002, 2021.

[2] Дж. Хуанг, Дж. Чай и С. Чо, «Углубленное обучение в области финансов и банковского дела: обзор литературы и классификация», Frontiers of Business Research in China, том 14, стр. 1–24, 2020.

[3] Д. Сильвер, Т. Хьюберт, Дж. Шриттвизер, И. Антоноглу, М. Лай, А. Гез, М. Ланкто, Л. Сифре, Д. Кумаран, Т. Граепель. и Т. Лилликрап, «Общий алгоритм обучения с подкреплением, который осваивает шахматы, сёги и го посредством самостоятельной игры», Science, том 362, № 6419, стр. 1140–1144, 2018 г.

[4] Б. Ли и С.Х. Хой, «Выбор онлайн-портфолио: обзор», ACM Computing Surveys, том 46, № 3, стр. 1–36, 2014 г.

[5] Л. Венг, Алгоритмы градиента политики, Github.io, 8 апреля 2018 г. [В сети]. Доступно: https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html. [Проверено: 10 декабря 2021 г.].