Распределение портфеля: модель обучения с подкреплением (PPO), часть II

Нельзя сказать, что система контролируемого обучения учится управлять своим окружением, потому что она следует, а не влияет на получаемую поучительную информацию. Вместо того, чтобы пытаться заставить свою среду вести себя определенным образом, он пытается заставить себя вести себя в соответствии с инструкциями своей среды. [Обучение с подкреплением: введение]

Постановка задачи

Традиционные инвесторы отказываются от стратегии 60/40 акций/фиксированного дохода, чтобы обеспечить долгосрочный доход. Хотя активов больше, чем акций и фиксированного дохода. Стратегия под торговой маркой Портфель дракона предлагает инвестиции в несколько поколений, которые используют инвестиции в диверсифицированные активы. Этот портфель объединяет популярные классы активов, т. е. акции, фиксированный доход, товары, золото, длинная волатильность. Основная цель портфеля – обеспечить стабильное накопление богатства в течение 100 лет.

Чтобы лучше понять портфель Dragon, я реализовал использование Современной теории портфеля с кодом Python для распределения портфеля с несколькими активами. Это даже позволяет инвестору корректировать свой портфель в зависимости от риска. Однако MPT — это агрегированная метрика, использующая фиксированный период времени и предполагающая, что доходность имеет нормальное распределение. Как ни странно, что слои больше риска. Еще есть возможности для улучшения торговли несколькими активами.

Это натолкнуло меня на мысль: Я не могу запомнить, обобщить и взвесить все показатели эффективности активов по отношению к распределениям, но модель могла бы. Сочетая мой интерес к управлению портфелем и данным, в этом проекте оценивалась эффективность глубокого обучения с подкреплением (RL) в инвестиционной среде. Производительность модели сравнивалась с портфолио Dragon: производительность на 4,7 % выше при моделировании с 2020 по 2021 год. [Репозиторий Github здесь]

В первой части обсуждались состояния, действия, вознаграждения, процедура градиента политик для этой модели.

Агент по распределению портфеля

Почему PPO лучше других политик RL?

Соответствующий агент, который подходит для окружающей среды, имеет важное значение. Вот настройки для задачи распределения портфеля,

а. пространство состояний: ковариационные матрицы и индикаторы являются непрерывными переменными
b. пространство для действий: распределение портфеля происходит непрерывно

На выбор предлагается три категории моделей RL:

на основе модели: утомительно создавать среду
вне политики без модели: лучше всего работает с дискретным пространством действий, хотя оно может быть дискретизировано
политика без модели: использует градиент политики и выборку неэффективна

Без моделей популярен благодаря множеству ресурсов, доступных для использования в конкретной библиотеке FinRL. Что касается моделей политики «выключено» и «включено»; внеполитические модели потребуют дискретизации непрерывного пространства, что может быть интервенционистским подходом, но использование гибкой политической функции может привести к развитию собственной дискретизированной политики и пространства действий. Жадный подход используется с градиентом политики. Наконец, PPO выбран со следующими преимуществами (1) интеграция концепций глубокого обучения (сети актеров и критиков) (2) стабильные итерации (3) готовые к использованию «из коробки».

Как работает PPO?

В отличие от несогласованных алгоритмов, таких как Deep Q Learning (DQN), PPO не сохраняет весь прошлый опыт и связанные с ним вознаграждения. Однако воспроизведение наибольшей краткосрочной доходности (на основе предыдущей памяти) не должно быть намерением, поскольку это может привести к переобучению исторических транзакций. В торговом контексте доходность нестационарна (из-за открытия цены), поэтому сделки должны уравновешивать ожидаемую прибыль и потенциальные убытки. Хороший трейдер будет взвешивать не только исторически схожие условия, но и то, как они отражаются на временном горизонте и капитале.

PPOкатегоризация и основные допущения для PPO и инвестиционной среды находятся здесь. Но вкратце PPO — это алгоритм on-policy. Это означает, что он предполагает одну стратегию, которая улучшается на протяжении всего обучения:

При инициализации он устанавливает случайную политику
Запускает политику для некоторых эпизодов, чтобы получить опыт
Выясняет, какие аспекты политики оказались очень плохими или хорошими на основе отдельной функции ценности.
Незначительно обновить политику на основе уроков из предыдущих эпизодов

Таким образом, он предоставляет оценки для политики (сеть участников) и функции ценности (сеть критиков). Шаг 4. выше использует градиентный спуск по формуле:

Целевые функции состоят из 3-х компонентов:

Значение «Lt,CLIP» — Critic Network
Политика «LtVF» — Actor Network
Энтропия «S» — неопределенность

Обучение

Проблемы

Стационарность. Как и в случае с большинством моделируемых проблем с временными рядами, стационарность важна, когда модель не предназначена для выполнения регрессии временных рядов. Необходим выбор стационарных индикаторов и относительного ценового представления.
Награда. В обучении с учителем агенту предоставляется обратная связь, но обучение с подкреплением использует вознаграждение и наказание как сигналы для положительного и отрицательного поведения (как серию действий).
– Для этого проекта вознаграждение установлено на за вычетом ежедневного дохода агента и портфеля дракона.
- Для этого проекта транзакционные сборы не учитываются для вознаграждения или расчета общего дохода
Разведка и эксплуатация. Исследование очень важно для агентов DRL, потому что оно не имеет никакого контекста при воздействии на окружающую среду. Модель не исследовала текущее решение, пока коэффициент энтропии не стал 0,01 (высокий), а total_timesteps не стал 10 240 000 (7 часов работы). Tensorboard онлайн здесь. После достаточного исследования мы можем использовать опыт на этапе прогнозирования.
Переоснащение. Задачи PPO и стохастической политики градиентного спуска печально известны переобучением. Это тот случай, когда модель имела исключительную отдачу в период обучения, но непропорционально меньше в тестовой среде. Это может быть связано с размером скорости обучения и коэффициента отсечения, что приводит к уменьшению итерационных шагов в градиенте. Это приведет к подгонке весов обученных состояний, но с подгонкой невидимых измерений и состояний. Например, решение для сделки внутри дня в обучающей выборке может быть актуально для полного месяца доходности в тестовой выборке. Предлагаемое возможное решение состоит в том, чтобы проводить обучение дольше.

В отличие от контролируемого обучения, здесь нет правильного ответа. Природа RL заключается в том, чтобы агенты тщательно изучали окружающую среду и разрабатывали оптимальную политику. Однако доходность рынков активов является недетерминированной или несвоевременной. Даже если модель PPO вернет теоретическую максимальную доходность в тестовый период, это докажет, что модель не применима к рыночной среде.

Полученные результаты

Модель RL можно сравнить с агентом «случайного трейдера», который случайным образом распределяет капитал по активам. Начальная политика для PPO является случайной, поэтому, если модель постоянно превосходит или более стабильна, чем случайный агент, мы знаем, что модель учится на своем прошлом опыте. Однако эта модель была бы бесполезна, если бы не являлась близкой заменой преобладающим стратегиям.

Что ж, как оказалось, обученная модель смогла превзойти портфель Dragon за тестовый период с 2020 по август 2021 года. Эта модель PPO смоделировала доход 24,2% по сравнению с 19,5% для 4,7%. превосходства (2,6 % в год).

Заключение

У RL на основе политик есть один существенный недостаток — локальные, а не глобальные максимумы. В этом случае использованная обученная модель возвращает результаты, сопоставимые с портфелем Dragon. Но индексный фонд S&P 500 по-прежнему превосходит портфель Dragon. Существует теоретическая оптимальная политика, которая могла бы превзойти индексный фонд S&P 500. Однако решение состоит в том, чтобы оптимизировать 100-летнюю стратегию поддержки нескольких поколений. Эта модель агента RL превзошла портфолио Dragon.

Улучшения, которые стоит попробовать

Поскольку PPO — это задача стохастического градиентного спуска, преимуществом является дополнительная оптимизация. Многопроцессорность позволит оптимизировать сразу несколько политик, чтобы агрегат можно было загрузить, а также позволит провести оптимизацию большего количества выборок, надеюсь, за более короткое время.

Текущая реализация имеет проблему «исчезающего градиента», когда предыдущий опыт забывается, поэтому в модели отсутствует значимый контекст торговой среды в течение дня, помимо предоставленных состояний. Эта настройка бесполезна для среднесрочной и краткосрочной производительности. Например, модель забудет значимые события, даже если это было день или неделю назад. Использование рекуррентной нейронной сети (LSTM) было бы более эффективным с точки зрения выборки, даже позволяя модели планировать краткосрочные стратегии.

И последнее замечание: я начал свой путь в науке о данных в июне 2021 года и не думал, что буду работать с чем-то настолько сложным, как алгоритмы обучения с подкреплением/нейронной сети. Но что меня удивило, так это то, что я могу запрограммировать инфраструктуру для теории ценности, чтобы модель могла формировать свою собственную функцию ценности. Функции ценности, которым мы, люди, следуем, с трудом формулируем или игнорируем.

Об авторе. В настоящее время изучает науку о данных в General Assembly. Я интересуюсь макротрейдингом и хочу узнать больше о применении машинного обучения в инвестиционной стратегии. Вы можете связаться со мной по адресу [email protected] или https://www.linkedin.com/in/julian-chang/

Отказ от ответственности. Я не являюсь инвестиционным консультантом. Это не следует рассматривать как финансовый совет по покупке или продаже акций, облигаций или операций с любыми другими ценными бумагами. Проведите собственную должную осмотрительность или проконсультируйтесь с лицензированным финансовым консультантом или брокером, прежде чем принимать какие-либо инвестиционные решения.