В последнее время наблюдается экспоненциальный рост применения искусственного интеллекта и машинного обучения в финансовой сфере. Этот пост академически легче, чем предыдущие публикации, и призван предложить общий обзор современного состояния исследований в области искусственного интеллекта, которые могут оказать потенциальное влияние на финансовые области, такие как торговля и управление портфелем. Ключевым выводом должен быть список проблем, характерных для приложений ИИ, с возможными решениями, предлагаемыми сообществом исследователей машинного обучения. Большинство ссылок не относятся к финансовой сфере, но мы опишем варианты использования, характерные для нашей работы. В частности, этот пост будет основан на последних публикациях, с особым вниманием к последним конференциям по ИИ (NeurIPS-18 и AAAI-19), в которых мы участвовали. В связи с этим читатели могут обратиться к материалам нашего семинара [1] и [2].

В Neuri мы проводим и внедряем передовые исследования в области машинного обучения, чтобы создать реальное преимущество в финансовых инвестициях. В этом посте мы сосредоточимся на соответствующих темах, таких как глубокое обучение с подкреплением (RL), непрерывное обучение, увеличение данных и интерпретируемость модели. Цель этого поста — не рекламировать наши услуги, поскольку мы применяем это исследование к собственным инвестициям, а скорее способствовать развитию ИИ в финансовой сфере. Это также не исчерпывающий список тем, имеющих отношение к финансовым приложениям. Эта область слишком обширна, чтобы ее можно было охватить в рамках одного поста в блоге, здесь мы хотим выделить некоторые ключевые области.

Глубокое обучение с подкреплением

Обучение с подкреплением состоит из агента, взаимодействующего с окружающей средой, чтобы путем проб и ошибок изучить оптимальную политику для последовательных задач принятия решений. Динамическая оптимизация портфеля остается одной из самых сложных задач в области финансов. Это последовательный процесс принятия решений о постоянном перераспределении средств в ряд различных финансовых инвестиционных продуктов с целью максимизации прибыли при ограничении риска. Классические подходы к этой проблеме включают динамическое программирование и выпуклую оптимизацию, которые требуют дискретных действий и поэтому страдают от «проклятия размерности». Были предприняты попытки применить методы RL для решения проблемы размерности в задаче оптимизации портфеля. Основная идея состоит в том, чтобы обучить агента RL, который вознаграждается, если его инвестиционные решения увеличивают логарифмическую норму прибыли, и наказывается в противном случае.

В нашей недавней работе [3] мы предложили новый агент RL, основанный на модели, который включает прогнозирование акций и демонстрацию экспертов. Используя исторические данные реального финансового рынка, мы смоделировали торговлю с практическими ограничениями и продемонстрировали, что предложенная нами модель надежна, прибыльна и чувствительна к риску по сравнению с базовыми торговыми стратегиями и агентами RL без моделей из предыдущей работы. Эта структура работает как в соответствии с политикой, так и вне политики, и ее можно легко расширить, используя некоторые недавние работы по RL на основе моделей (например, [4], [5] и [6]).

Мультиагентные и несовершенные информационные игры

Что касается этой области исследований, то на AAAI-19 мы сочли многоагентные и несовершенные информационные игры особенно полезными, учитывая наше представление о рынках как о наборе разнородных агентов, конкурирующих в среде с частично наблюдаемыми состояниями. Проблема с многоагентными настройками в финансах заключается в растущей нестационарности с увеличением числа агентов, даже несмотря на то, что мы можем объединять агентов в макрогруппы (например, спекулянты, хеджеры против арбитражеров или длинные агенты против агентов коротких продаж). Мы наблюдаем значительный прогресс в работе с нестационарными средами в глубоком RL для многоагентных систем, например, в [7] и [8].

Смежной областью исследований является иерархическое RL (HRL), целью которого является выявление многократно используемых навыков и изучение того, как их комбинировать. Однако есть также несколько проблем, таких как различия в шкале вознаграждения или несовместимость вознаграждения между разными задачами. Мы находим некоторые проницательные идеи и хороший обзор литературы в статье MIT/IBM на AAAI-19 по переносу знаний в многоагентных системах [9]. Возможное применение этой схемы — в торговой среде, где у нас может быть структура менеджер и работник между макроагентом (более высокого уровня), контролирующим рабочих агентов, которые могут представлять разные классы активов. В этом случае менеджер будет осуществлять стратегическое распределение, в то время как рабочие будут тактически перераспределять активы в одних и тех же подгруппах.

Еще одна важная проблема заключается в несовместимости шкал вознаграждения в схемах аддитивного вознаграждения, и на эту тему нам понравился Плакат Технологического института Джорджии о компонуемой RL [10]. Их предложение состоит в том, чтобы справиться с проклятием размерности в RL, разбивая задачи на более мелкие модули (таким образом уменьшая размер пространства состояний). Мы также должны отметить, что концепция несовершенных информационных игр в финансах в целом сложна, поскольку требует значительного числа противников/агентов. Мы цитируем из [11], что

Как описано, например, в (Bewersdorff 2005, глава 43) для игры, подобной покеру, коалиции между игроками возможны в играх с тремя игроками, поэтому трудно даже определить «оптимальную игру».

Будущие исследования могут быть проведены, особенно в области финансов, для абстрагирования или упрощения (например, разделение потоков хеджеров/спекулянтов/розничной торговли на трех игроков). Один из способов — изучить минимизацию контрфактических сожалений (CFR), которая представляет собой семейство итерационных алгоритмов, которые являются наиболее популярным и на практике самым быстрым подходом к приближенному решению больших игр с несовершенной информацией. Он итеративно обходит дерево игры, чтобы сойтись к равновесию Нэша. Чтобы иметь дело с очень большими играми, CFR обычно использует эвристику для предметной области, чтобы упростить целевую игру в процессе, известном как абстракция. Эта упрощенная игра решается с помощью табличного CFR, и ее решение сопоставляется с полной игрой. (заинтересованные читатели могут обратиться к [12] и [13] и Приглашенному докладу AAAI-19 Туомаса Сандхольма о новых результатах для решения игр с несовершенной информацией).

Чувствительное к риску обучение с подкреплением

Еще одним важным соображением для торгового приложения является возможность снижения риска. Неприятие риска исходит из ситуации, когда каждому возможному исходу ситуации можно приписать вероятность. В условиях последовательного принятия решений отдача является случайной величиной из-за стохастических переходов / вознаграждений для данного марковского процесса принятия решений (MDP). Такая неопределенность становится важной, когда существует значительная стохастичность в переходах MDP, что может привести к значительной изменчивости доходности. Естественный метод борьбы с этой неопределенностью, мотивированный классическими исследованиями в финансовой литературе, заключается в понятии рисков, таких как его дисперсия, стоимость, подверженная риску (VaR), условная стоимость, подверженная риску (CVaR), или экспоненциальная полезность. Такие меры фиксируют изменчивость дохода или количественно определяют влияние редких, но потенциально катастрофических результатов. Исходя из многопериодного (временного) характера, риск в МДП можно разделить на два типа: статическая мера риска и динамическая мера риска. В частности, чувствительный к риску MDP рассматривает задачи стохастической оптимизации, в которых цель включает меру риска случайной стоимости, в отличие от типичной цели ожидаемой стоимости. Такие проблемы важны, когда лицо, принимающее решения, хочет управлять изменчивостью затрат в дополнение к их ожидаемому результату, и являются стандартными в различных приложениях в области финансов и исследований операций. Чувствительные к риску MDP с динамической мерой риска и MDP, избегающие двусмысленности, тесно связаны между собой. Подобно классической MDP, чувствительная к риску MDP страдает от «проклятия размерности» и требует полного знания модели.

Чувствительное к риску обучение с подкреплением предлагается для смягчения этого проклятия и способно давать хорошие решения в среде без моделей. В частности, [14] рассмотрел динамические меры риска на основе квантилей и предложил алгоритм приближенного динамического программирования на основе моделирования. В [15] была предложена основанная на моделировании итерация приблизительных значений для динамических показателей риска. Между тем, [16] изучали динамические когерентные меры риска и предлагали алгоритмы критики акторов с аппроксимацией функции ценности. Аппроксимация линейной функции для критериев, связанных с дисперсией, в MDP была разработана в [17]. В этой последней работе для этого класса задач были разработаны алгоритмы временной разности и временной разности наименьших квадратов. Метод параметрического градиента политики для статического CVaR, минимизирующего обучение с подкреплением, был предложен в [18] и [19]. В [20] дан алгоритм секущей плоскости для согласованных во времени многошаговых задач линейного стохастического программирования. Кроме того, в [21] изучались экспоненциальные функции полезности, [22] и [23] изучались модели средней дисперсии, [24] изучался градиент политики для когерентных статических мер риска, а [25] и [26] изучался динамический когерентный риск для систем. с линейной динамикой.

Мы мало что слышали о чувствительном к риску RL во время AAAI-19, хотя мы ожидаем, что эта тема будет расширена на следующих конференциях в этом году. Некоторые из соответствующих ссылок из AAAI-19: [27]-[30].

Непрерывное обучение

Непрерывное обучение (CL) — это способность модели постоянно учиться из потока данных, опираясь на то, что было изучено ранее, и, следовательно, демонстрируя положительный перенос, а также способность запоминать ранее просмотренные задачи. CL вступает в игру, когда нам нужно повысить эффективность наших усилий по моделированию с помощью множества связанных целей обучения, которые тесно связаны (например, обучение торговле разными активами или обучение разных агентов для разных сторон торговли). CL имеет значение как для контролируемого, так и для неконтролируемого обучения. Например, когда набор данных не перемешивается должным образом или существует дрейф во входном распределении, модель переопределяет недавно просмотренные данные, забывая остальные — явление, называемое катастрофическим забыванием, которое является частью CL и является тем, на что нацелены системы CL. адресовать.

Непрерывное обучение определяется на практике через ряд требований. Согласно Семинару непрерывного обучения NeurIPS-2018, неполный список включает:

  1. Онлайн-обучение.Обучение происходит в любой момент, без фиксированных задач или наборов данных, а также без четких границ между задачами.
  2. Наличие прямого и/или обратного переноса: модель должна иметь возможность переносить ранее просмотренные данные или задачи на новые, а также иметь возможность улучшать старые задачи, используя информацию, полученную из новых задач.
  3. Катастрофическое сопротивление забыванию: новое обучение не должно снижать производительность на ранее просмотренных данных.
  4. Ограниченный размер системы: емкость модели должна быть фиксированной, заставляя систему разумно использовать свою емкость, а также корректно забывать информацию, чтобы обеспечить максимальное вознаграждение в будущем.
  5. Нет прямого доступа к предыдущему опыту: хотя модель может помнить ограниченный объем опыта, алгоритм CL не должен иметь прямого доступа к прошлым задачам или иметь возможность перематывать среду назад.

По смежной теме Документ Google DeepMind AAAI-19 о многозадачном обучении [31] показал впечатляющую производительность в области игр.

В частности, авторы исследовали проблему обучения освоению не одной, а сразу нескольких задач последовательного решения. Они предложили автоматически адаптировать вклад каждой задачи в обновления агента, чтобы все задачи оказывали одинаковое влияние на динамику обучения. Мы также обнаружили, что некоторые работы (например, [32] и [33]) о трансферном обучении также заслуживают изучения. Потенциальные финансовые приложения из них:

  • Отношение к активу или направлению торговли как к задаче (перегонка экспертов по конкретным задачам в единую модель акций).
  • Непрерывная переподготовка действующих торговых агентов (обучение/тестирование и обновление модели).
  • Перенос общего понимания реакции цен на активы, например, на макроэкономические характеристики (или другие, такие как риск или технические индикаторы).
  • Определение режимов как разных задач с одним агентом RL для каждого режима. В случае техники определения режима отсылаем читателей к одному из наших последних постов.

Ян Гудфеллоу выступил с приглашенным докладом на AAAI-19 (видео), где рассказал о состязательном обучении. Он рассмотрел генеративно-состязательные сети (GAN), которые берут набор обучающих данных и изучают распределение, которое может генерировать аналогичные выборки. GAN решают проблему генеративного моделирования, а также проблему трансляции предметной области. Например, мы можем транслировать дневные видеопотоки в ночные настройки без парных примеров день-ночь. Среди нескольких примеров Ян показал вариант GAN под названием CycleGAN [34], который превращает лошадей в зебр. GAN можно использовать для предоставления изученных функций вознаграждения, как в SPIRAL [35]. В частности, они могут генерировать функции вознаграждения в соответствующей области ввода (восприятия камеры робота) и обеспечивать полезную меру расстояния, на которой робот может учиться.

Использование GAN в финансах хорошо мотивировано. Как упоминалось в нашей статье [3], данные о финансовых рынках ограничены. Рассмотрим случай, когда новый вес портфеля определяется агентом ежедневно. В таком сценарии, который может быть нередким, размер ежедневной обучающей выборки для конкретного актива за последние 10 лет составляет всего около 2530 из-за того, что в году всего около 253 торговых дней. Очевидно, что это очень маленький набор данных, которого может быть недостаточно для обучения надежного агента RL. Чтобы смягчить эту проблему, можно расширить набор данных с помощью повторяющихся сетей GAN и создать синтетические временные ряды. Сгенерированные данные можно дополнительно проверить с помощью статистических тестов (например, теста Колмогорова-Смирнова (КС)), чтобы увидеть, являются ли они репрезентативными для истинного базового распределения. Еще одно интересное направление, на наш взгляд, — применять GAN полуконтролируемым способом, о котором говорит Ян. В частности, вместо того, чтобы просто различать настоящий или поддельный и выбрасывать дискриминатор после обучения, дискриминатор можно использовать в качестве классификатора. Кроме того, его можно научить различать реальный актив 1, реальный актив 2, реальный актив 3 и, наконец, поддельный актив.

Во время последнего AAAI большое внимание уделялось GAN, см., например, [36] и [37].

Интерпретируемость модели

Глубокие нейронные сети достигли уровня точности, близкого к человеческому, в различных типах задач классификации и прогнозирования, включая изображения, текст, речь и видеоданные. Тем не менее, сети по-прежнему рассматриваются в основном как аппроксиматоры функций черного ящика, отображающие заданные входные данные в выходные данные классификации. Следующий шаг в этом эволюционном процессе человека и машины — включение этих сетей в критически важные процессы, такие как медицинская диагностика, планирование и контроль, — требует определенного уровня доверия, связанного с выходными данными машины.

Нас особенно интересует эта тема, потому что мы хотим понять действия (например, веса портфеля или направления торговли), производимые торговым агентом RL. В частности, мы хотим понять, какая часть глубокой нейронной сети больше всего способствует принятию такого решения и почему она это делает. Мы рады видеть значительный объем работы, проделанной по этой теме в AAAI этого года. Например, авторы в [39] вводят новое многообразие возмущений и связанную с ним меру влияния для количественной оценки эффектов различных возмущений на классификаторы глубоких нейронных сетей. В [40] показано, что такая интерпретация предсказаний глубокого обучения чрезвычайно хрупка в следующем смысле: двум визуально неразличимым входным данным с одной и той же предсказанной меткой можно присвоить очень разные интерпретации. Авторы систематически характеризуют хрупкость нескольких широко используемых методов интерпретации важности признаков (карт значимости, распространения релевантности и DeepLIFT) на ImageNet и CIFAR-10. Верификация качества системы машинного обучения также была отмечена во время презентации [41]. В Neuri мы уделяем большое внимание алгоритмической безопасности, учитывая, что наши торговые производственные системы напрямую связаны с принятием денежных решений, и любая ошибка может стоить нам денег.

Мы считаем важным подчеркнуть, что иногда существует непонимание между интерпретируемостью и объяснимостью.

«Большая часть исследований, основанных на картах значимости, анализе признаков, сопоставлении градиентов и входных данных или взаимной информации между входными данными и признаками, направлена ​​на то, чтобы попытаться объяснить текущее поведение модели. Интерпретируемость, с другой стороны, является антропоморфным понятием. Мы считаем, что объяснимость — это то, на чем мы должны сосредоточиться в нашей области, поскольку нас в основном интересует понимание того, почему было выбрано определенное решение с точки зрения основных характеристик (внутренней работы) моделей. Например, карты заметности делают именно это, поскольку они представляют собой не что иное, как сложный способ демонстрации внимания (не новая концепция, первоначально сформулированная Кристофом Кохом и Шимоном Ульманом [38] для объяснения того, как работают зрительные пути в мозгу). — Сакьясингха Дасгупта.

Исследования в области искусственного интеллекта и машинного обучения растут в геометрической прогрессии, и каждый день появляются новые исследования. Поскольку объем этой статьи ограничен, мы не можем расширить наше обсуждение, чтобы охватить все другие темы, важные для финансовой сферы. Заинтересованные читатели могут обратиться к дополнительным недавним публикациям, которые мы сочли полезными, см. ссылки [41]-[46].

Особая благодарность доктору Сакьясингхе Дасгупте за его ценный вклад и обсуждения.

Пэнцянь Ю научный сотрудник Neuri Pte. ООО

Илья Кулятин — инженер-исследователь в Neuri Pte. ООО

[1] Д. Тенг и С. Дасгупта, Непрерывное прогнозирование временных рядов с глубокими и мелкими стохастическими процессами, в NIPS Continual Learning 2018.

[3] П. Ю, Дж. С. Ли, И. Кулятин, З. Ши и С. Дасгупта, Глубокое обучение с подкреплением на основе моделей для динамической оптимизации портфеля, препринт arXiv arXiv:1901.08740.

[4] Б. Ким, Л. П. Кельблинг и Т. Л. Перес, Состязательный акторно-критический метод для задач и задач планирования движения с использованием опыта планирования, в AAAI 2019.

[8] Р. Лоу, Ю. Ву, А. Тамар, Дж. Харб, П. Аббил и И. Мордач, Мультиагентный актер-критик для смешанной кооперативно-конкурентной среды, в NIPS 2017.

[10] К. Симпкинс и К. Исбелл, Composable Modular Reinforcement Learning,в AAAI 2019.

[11] Ф. Бонне, Т. В. Неллер и С. Вьенно, На пути к оптимальной игре поросенка и свиньи для трех игроков, в AAAI 2019.

[14] Д. Р. Цзян и В. Б. Пауэлл, Приближенное динамическое программирование, исключающее риск, с мерами риска на основе квантилей, Mathematics of Operations Research 43.2 (2017): 554–579.

[15] П. Ю, В. Б. Хаскелл и Х. Сюй, Итерация по приблизительным значениям для марковских процессов принятия решений с учетом риска, IEEE Transactions on Automatic Control, 63(9):3135–3142, 2018.

[16] Т. Авив, Ю. Чоу, М. Гавамзаде и С. Маннор, Градиент политики для согласованных мер риска, Достижения в системах обработки нейронной информации, страницы 1468–1476, 2015.

[17] Т. Авив, Д. Д. Кастро и С. Маннор. Оценка политики с использованием критериев риска, связанных с отклонением, в марковских процессах принятия решений, препринт arXiv arXiv:1301.0104, 2013 г.

[18] Т. Авив, Ю. Гласснер и С. Маннор. Оптимизация CVaR с помощью выборки, AAAI. 2015.

[19] Ю. Чоу и М. Гавамзаде, Алгоритмы оптимизации CVaR в MDP, Достижения в системах обработки нейронной информации. 2014.

[20] Т. Асамов и А. Рущинский, Согласованные во времени аппроксимации многоэтапных задач стохастической оптимизации, не склонных к риску, Математическое программирование, стр. 1–35, 2014.

[21] В. С. Боркар, Формула чувствительности для чувствительных к риску затрат и алгоритм актер-критик, Systems & Control Letters 44.5 (2001): 339–346.

[22] Т. Авив, Д. Д. Кастро и С. Маннор, Градиенты политики с критериями риска, связанными с отклонением, Труды двадцать девятой Международной конференции по машинному обучению. 2012.

[23] Л. А. Прашант и М. Гавамзаде. Актер-критик Алгоритмы для чувствительных к риску MDP, Достижения в системах обработки нейронной информации. 2013.

[24] Т. Авив, Ю. Чоу, М. Гавамзаде и С. Маннор, Последовательное принятие решений с учетом согласованного риска, IEEE Transactions on Automatic Control 62.7 (2017): 3323–3338.

[25] П. Марек и Д. Субраманиан, Приближенный метод решения для больших марковских процессов принятия решений, не склонных к риску, Материалы конференции по неопределенности в искусственных. Интеллект, 2012.

[26] Ю. Чоу и М. Павоне, Структура для согласованного во времени и не склонного к риску модельного прогнозирующего управления: теория и алгоритмы, Американская конференция по управлению (ACC), 2014 г. IEEE, 2014 г.

[28] Г. Р. Джеякумар и Б. Равиндран, Агрегация многоэтапных результатов для обучения с подкреплением на основе достоверности, AAAI 2019.

[29] Р. Ченг, Г. Орос, Р. Мюррей и Дж. В. Бердик, Сквозное безопасное обучение с подкреплением с помощью барьерных функций для критически важных с точки зрения безопасности задач непрерывного управления, в AAAI 2019.

[32] М. Ример, Т. Клингер, Д. Бунеффуф и М. Франческини, Масштабируемые воспоминания для непрерывного обучения на протяжении всей жизни, в AAAI 2019.

[33] К. Ван, Л. Ли, В. Йе, М. Лонг и Дж. Ван, Переносимое внимание для адаптации домена, в AAAI 2019.

[34] Дж. Ю. Чжу, Т. Парк, П. Изола и А. А. Эфрос, Преобразование непарного изображения в изображение с использованием циклически согласованных состязательных сетей, Материалы международной конференции IEEE по компьютерному зрению. 2017.

[35] Ю. Ганин, Т. Кулкарни, И. Бабушкин, С.М. Эслами и О. Виньялс, Синтез программ для изображений с использованием усиленного состязательного обучения, препринт arXiv arXiv:1804.01118, 2018 г.

[36] К. М. Ю, Ю. Шин и С. Ли, Увеличение данных для понимания разговорной речи посредством совместной вариационной генерации, в AAAI 2019.

[37] К. Ю и В. Лам, Увеличение данных на основе состязательного автоэнкодера, обрабатывающего дисбаланс для обучения ранжированию, в AAAI 2019.

[38] К. Кох и С. Уллман, Сдвиги избирательного зрительного внимания: к лежащей в основе нейронной цепи, Human Neurobiology 4:219–227 (1985).

[39] Х. Шу и Х. Чжу, Анализ чувствительности глубоких нейронных сетей, в AAAI 2019.

[40] А. Горбани, А. Абид и Дж. Зоу, Интерпретация нейронных сетей является хрупкой, в AAAI 2019.

[41] С. Чакраборти и К. С. Мил, О тестировании однородных пробников, в AAAI 2019.

[42] К. Аггарвал, С. Джоти, Л. Фернандес-Лук и Дж. Сривастава, Состязательное неконтролируемое репрезентативное обучение для временных рядов действий, в AAAI 2019.

[43] С. Чандар, К. Санкар, Э. Воронцов, С. Э. Кахоу и Ю. Бенжио, На пути к ненасыщающим рекуррентным единицам для моделирования долгосрочных зависимостей, в AAAI 2019.

[44] А. Сендерович, Дж. К. Бек, А. Галь, М. Вейдлих. Графики перегрузки для автоматического прогнозирования времени, в AAAI 2019.

[45] З. А. Ляо, К. Шарма, Дж. Кассенс и П. ван Бик, Поиск всех байесовских сетевых структур с коэффициентом оптимальности, в AAAI 2019.

[46] А. Вергари, А. Молина, Р. Пехарц, З. Гахрамани, К. Керстинг и И. Валера, Автоматический байесовский анализ плотности, в AAAI 2019.

Первоначально опубликовано на https://medium.com 13 июня 2019 г.