Man Group использует ML (методы глубокого обучения и RL) для управления фондами.

Статья Man AHL ML дополнительно разъясняет, что они на самом деле делают: отслеживание тренда / сопоставление с образцом (глубокое обучение) и выполнение приказов (обучение с подкреплением (не для активной торговли, т.е. принятия решения, какой ценностью торговать), что функционально похоже на то, как JP Morgan использует RL).

Обучение с подкреплением в настоящее время является одной из самых разрекламированных областей машинного обучения, теперь оно даже отображается как отдельная статья в Gartner’s 2017 Hype Cycle.

RL пытается достичь качественно иной и более продвинутой цели, чем контролируемое обучение. RL работает в динамической среде (в отличие от статической природы SL с сопоставлением с образцом).

Ограничения обучающих данных распространяются и на RL - обученный агент RL сможет иметь дело только с ситуациями, которые он видел во время обучения (проблема обобщения). Преимущество агента RL в том, что он может предоставлять свои собственные (неявные) ярлыки (неконтролируемое обучение с учителем). Внезапные, ранее не встречавшиеся, неожиданные движения финансового рынка по-прежнему нарушат систему онлайн-обучения для принятия решений на основе RL. Например, такая акция, как NVDA, которая годами оставалась неизменной, а затем резко выросла в 2016 году, не будет выбрана агентом RL, обученным на данных до 2013 года.

Более поздние разработки, связанные с RL (AlphaGo Zero, которая научилась играть в Го с нуля, т.е. только играя против самого себя), демонстрируют возможности обучения на смоделированных данных. * Проблема с моделированием заключается в том, что создание идеального симулятора требует идеального знания системы.

Мы могли бы смоделировать множество рыночных сценариев, и агент RL мог бы научиться вести себя оптимально (моделирование методом Монте-Карло уже широко используется в финансах; вышеупомянутое ограничение все еще применяется).

Как очень общая структура принятия решений, RL может применяться к широкому кругу проблем. Торговля финансовыми ценными бумагами / создание рынка - это пример деятельности, в которой можно использовать преимущества методов RL.

RL - это широко открытая, минималистичная структура. Патрик Уинстон (Массачусетский технологический институт) сказал о генетических алгоритмах: «Мы не говорили, что GA - это правильный путь. Мы сказали, что пространство GA богато решениями »; и «В чем заслуга (за создание впечатляющей системы обучения GA) - в богатстве пространства или интеллекте программиста? В случае GA это и то, и другое ». То же самое можно сказать и о RL. Для создания успешной системы обучения RL требуется большой опыт на стороне реализации, а также структура RL предлагает полезные общие принципы того, как это сделать.

Не существует фиксированных или жестких правил / поваренных книг о том, как построить решение на основе RL для конкретной проблемы.

В прошлом были попытки использовать динамические (не SL) алгоритмы машинного обучения для торговли (генетические алгоритмы - итерация и развитие на уровне политики). Алгоритмы RL пытаются улучшить политики (онлайн / офлайн) с помощью функций ценности - Q-обучения, методов градиента политики - REINFORCE или некоторой их комбинации - алгоритмов «субъект-критик»). RL требует большого количества данных для обучения, и большинство успехов RL произошло в играх и робототехнике, где достоверные данные можно легко получить с помощью моделирования.

* Го - идеальная информационная игра, финансовые рынки - нет; Машинное обучение также делает успехи в Техасском холдеме, игре с несовершенной информацией, которая, таким образом, ближе к тому, как работают финансовые рынки. DeepMind выпустила более общий AlphaZero, который учится играть в го, шахматы и сёгу с нуля.