Превосходство по назначению: почему краудсорсинговый ИИ может не работать для хедж-фондов

На этой неделе мы узнали, что искусственный интеллект DeepMind от Google научился играть в шахматы на сверхчеловеческом уровне за четыре часа - и без какого-либо утомительного изучения дебютов и эндшпилей, характерных для человеческой шахматной стратегии. Программисты усвоили правила шахмат и заставили ИИ сыграть против него 44 миллиона партий, обучаясь по ходу дела. Результат был описан гроссмейстером Питером Хайне Нильсеном следующим образом: «Я всегда задавался вопросом, как было бы, если бы высший вид приземлился на Земле и показал нам, как они играют в шахматы. Теперь я знаю."

В то же время, когда ИИ делает возможными сверхчеловеческие игры, мы привыкли к мысли, что краудсорсинг также является волшебной пулей для решения ранее неразрешимых проблем, таких как отображение транспортного потока и загруженности в городах в режиме реального времени; или конструировать все, от игрушек Lego до гамбургеров McDonalds.

Идея краудсорсинга ИИ (или машинного обучения, что инженеры называют ИИ, когда они не ищут финансирования) была успешно исследована такими компаниями, как Kaggle и CrowdAnalytix. Обычно они используют формат соревнований, чтобы привлечь сотни групп специалистов по машинному обучению к решению проблем с большими данными для таких разнообразных организаций, как GE и Министерство внутренней безопасности. Над проблемами Kaggle работали более полумиллиона специалистов по данным, а призы были до трех миллионов долларов; компания была приобретена Google в марте этого года.

Неудивительно, что идея использования краудсорсингового ИИ для достижения превосходных результатов на финансовых рынках стала популярной, и есть несколько стартапов, использующих разные модели для достижения этих результатов. Возможно, самым простым является Quantopian, который предоставляет платформу для анализа и тестирования биржевых данных, а также побуждает толпу придумывать алгоритмы торговли акциями. Алгоритмы, приносящие прибыль (и соответствующие строгому набору критериев эффективности), могут финансироваться за счет средств квантопических инвесторов, при этом изобретатель алгоритма принимает на себя долю прибыли. Количество специалистов по данным, использующих платформу Quantopian, очевидно, превышает 100000, а возможно, достигает 160000.

Похожей модели следует Quantiacs, торгующая товарными фьючерсами и проводящая ежеквартальные соревнования. Алгоритмы-победители в каждом квартале финансируются из денег инвесторов Quantiacs, и разработчик алгоритмов снова делит прибыль. Quantiacs утверждает, что имеет более 6000 алгоритмов написания квантов и, по-видимому, инвестировал около 15 миллионов долларов в краудсорсинговые алгоритмические торговые стратегии.

Пожалуй, самым необычным предприятием является Numerai, компания, которую называют концептуально произведением искусства. Компания Ричарда Крейба каждую неделю предоставляет публике полностью очищенный и зашифрованный набор данных; подразумевается, что данные являются производными факторами из глобальной стратегии торговли акциями, но толпа понятия не имеет, что на самом деле представляют данные. Члены толпы, которые вносят лучшие алгоритмы классификации, награждаются комбинацией наличных денег и токена криптовалюты Numerai на основе Ethereum, который называется Numeraire. В октябре 2017 года Numerai заявила, что в их компании задействовано 30000 специалистов по данным.

Учитывая весь этот азарт и энтузиазм, требуется определенное мужество или безрассудство, чтобы заявить: я не думаю, что краудсорсинговый ИИ будет работать на хедж-фонды, или, по крайней мере, не в его нынешних формах. Причины важны, потому что они не уникальны для финансовых рынков. Машинное обучение (ML) было ошеломляюще успешным в определенных классах проблем, в которых преимущества текущего подхода ML перевешивают недостатки, но природа финансового инвестирования довольно резко выявляет недостатки.

Прежде чем я раскрою эти слабые места, уместно спросить: как поживают краудсорсинговые хедж-фонды ML? Данных по этому поводу немного, но вот что видно:

· Британская Financial Times в ноябре 2017 года назвала результаты Quantopian разочаровывающими; фонд упал на 3% с июня 2017 года. Учитывая, что NYSE выросла на 5% за тот же период, это описание, вероятно, квалифицируется как преуменьшение британского.

· Результаты Quantiacs не указываются как фонд, но инвестиции, сделанные в победившие краудсорсинговые алгоритмы, сообщаются на веб-сайте, как и их последующая эффективность. Если предположить, что день, когда было сообщено о распределении инвестиций в каждый алгоритм, был начальным днем торговли для этого алгоритма, и что ни одна из инвестиций не была ликвидирована, это не очень приятное зрелище. Они инвестировали почти 16 миллионов долларов в форме примерно 2,25 миллиона долларов в квартал в течение 7 кварталов, получив абсолютную прибыль в размере 0,145 миллиона долларов; средняя квартальная доходность вложенных алгоритмов - 0,3%. Почти половина инвестиций имеет отрицательный или нулевой рост, и только одна - более чем на 10% положительна. Только один финансируемый алгоритм имеет коэффициент Шарпа больше единицы. Коэффициент Шарпа - это стандартная мера доходности стратегии с поправкой на риск, и коэффициент, равный единице, можно считать порогом между посредственными и надежными исполнителями. Почти все проинвестированные алгоритмы имели коэффициент Шарпа, намного превышающий единицу, как при тестировании на исторических данных, так и при прямом форвард-тестировании до инвестирования.

· Numerai утверждает, что «зарабатывает деньги». Трудно понять, что это значит. В декабре 2016 года они предприняли второй раунд венчурного капитала, что позволяет предположить, что денежный поток может быть не очень положительным. Их стратегия выплат в токенах Ethereum получила огромный импульс благодаря буму криптовалют, поэтому (в отличие от Quantopian и Quantiacs) их «толпа», похоже, действительно выигрывает в широком масштабе. С другой стороны, если посмотреть на пожизненные доходы лучших участников коллектива, можно увидеть феномен, который также заметен в других компаниях: первые высокоэффективные специалисты по данным перестали работать, и, похоже, никто не делает первых. -мир здесь живущий (даже на уровне, скажем, вождения для Uber). Общее еженедельное денежное вознаграждение Numerai составляет 6000 долларов, неравномерно распределенных между 100 ведущими специалистами по данным за неделю; Я не думаю, что кто-то сейчас бросает свою повседневную работу.

Хотя это не точная информация, создается сильное впечатление, что эти фонды не тушат свет, как вы ожидаете от новаторской стратегии. И в технологиях, и в финансах ожидается, что хорошая игра должна демонстрировать какое-то преимущество на раннем этапе либо в принятии, либо в доходе, а здесь этого не видно. Чтобы убедиться, что это предвестники краха хеджевых фондов, необходимо кардинальное улучшение показателей.

Так в чем проблема? У него есть три аспекта: данные, процесс и количество людей. Данные - самая заметная проблема. Финансовые данные полностью отличаются от данных, на которых проводится 99,9% исследований в области машинного обучения и на которых обучаются все студенты, изучающие машинное обучение. Машинное обучение глубоко укоренилось в академических кругах, и даже крупные корпоративные усилия возглавляются профессорами рок-звезды, такими как Ян Лекун (Facebook) и Джеффри Хинтон (Google). Академический прогресс в области машинного обучения определяется производительностью новых алгоритмов на широко доступных наборах контрольных данных. Например, в течение последних шести или семи лет было бы очень сложно продвигать алгоритм классификации, который не предлагал бы почти современный результат на двух наборах данных изображений CIFAR, которые состоят из 60000 изображений. таких объектов, как автомобили и животные; задача - классифицировать объект на изображении.

Слева показано типичное изображение из CIFAR-10. Это цветное изображение 32x32x3, требующее простого ответа на вопрос «что это?».

Ниже приведены эквивалентные финансовые данные - ежедневная цена акций Apple, Inc. за всю ее историю. Это временной ряд, который каким-то образом отражает всю историю мира с 12 декабря 1980 года. На вопрос «Стоит ли покупать Apple завтра?» Нет однозначного ответа.

Вот некоторые ключевые различия между этими типами данных:

· Наборы CIFAR закрытые и завершенные - они никогда не изменятся, а отношения между их элементами неизменны на все времена. Весь набор данных виден исследователям, независимо от того, используют ли они обычные подмножества данных тестирования, обучения и удержания.

· Несмотря на то, что размеры изображения были уменьшены до 32x32 пикселей, чтобы сделать набор данных управляемым, наборы данных CIFAR велики - 183 миллиона точек данных - которые обрабатываются, чтобы ответить на очень простой вопрос, с десятью или сотней уникальных ответов и с 100% маркировка (маркировка означает наличие ярлыка для каждого изображения, описывающего, каков идеальный ответ на простой вопрос).

· Ежедневные данные о ценах на акции Apple содержат всего 9333 точки данных - по одному на торговый день с момента листинга 12 декабря 1980 года. Если расширить это до данных с разрешением в одну минуту, то все равно будет всего 3638700 точек - примерно столько же, сколько одиночная фотография с низким разрешением. Финансовые ценовые ряды - это не большие данные.

· Цена Apple была обусловлена внутренними корпоративными событиями (увольнение и повторный прием Стива Джобса; запуск iPhone), внешними финансовыми событиями (бум и спад доткомов) и геополитикой (подъем Китая). Это ответ на 37 лет сложного взаимодействия с реальными событиями.

· Мы с уверенностью знаем, что статистика ценовых рядов Apple нестационарна, и полный анализ данных на сегодняшний день не может быть хорошим индикатором того, что данные еще впереди.

· Не существует однозначного ответа на вопрос: «Стоило ли мне покупать акции Apple в определенный день?» даже с учетом исторических данных задним числом. Несмотря на современную теорию портфеля, на большинство инвестиционных вопросов можно дать точный ответ: «это зависит ...»

Проблема нестационарных данных заслуживает некоторого раскрытия. Ежедневный долларовый объем акций, торгуемых на NYSE, составляет около 2% от общей капитализации NYSE, что подразумевает годовой оборот около 500%. Это убедительно свидетельствует о том, что торговля осуществляется не для владения акциями, а для получения прибыли от торговли ими; что (если у кого-то были какие-либо сомнения) предполагает, что цена акций во многом определяется торговым поведением трейдеров. За четыре десятилетия существования Apple торговые стратегии стали намного сложнее; Доходность торговых стратегий, таких как возврат к среднему, упала с чрезвычайно прибыльных до незначительных уровней, поскольку они получили широкое распространение. Возврат к среднему - это своего рода статистический арбитраж, который работает или не работает в зависимости от распределения и корреляции случайности движений цен. Таким образом, статистика цен на акции также является ответом на массу трейдеров, которые на короткие периоды времени нашли прибыльные стратегии для их использования. Любая статистическая закономерность в цене будет использоваться до тех пор, пока она не исчезнет.

Использование статистических закономерностей в ценовых данных чем-то похоже на попытку схватить мокрый кусок мыла; акт их захвата заставляет их пойти куда-нибудь еще. В случае возврата к среднему потребовалось четыре десятилетия, чтобы закономерности исчезли с рынка путем постоянной эксплуатации, но этот процесс резко ускорился с появлением алгоритмической торговли.

Это старые новости для трейдеров, и они рискуют отвлечься от споров об эффективности рынка, которых мы будем избегать. Проблема для ML заключается в том, что в исторических данных были пригодные для использования структуры, которые, скорее всего, сейчас не существуют. Основная догма машинного обучения состоит в том, что наивное обучение работает лучше всего (то есть не ограничивает модели эвристикой, полученной от человека, например, каталогом дебютных последовательностей шахмат, или извлекает высокоуровневые функции); но чрезвычайно сложно заставить систему машинного обучения игнорировать явно прибыльные действия.

Можно попытаться решить эту проблему, ограничив обучение указанием данных о ценах за последний год. Тогда у вас есть всего 252 точки данных, с которыми можно работать, что еще больше усугубляет проблему с данными.

Кто-то может спросить: а как насчет всех данных, кроме цен на акции - данных о продажах iPhone, цен на сырье для электроники, обменных курсов, отношения к Apple, выраженного в твиттере - это могут быть меры факторов, влияющих на цену Apple? Разве суть больших данных не в том, чтобы извлекать правду из огромного пространства данных?

К сожалению, если мы попытаемся спроецировать из миллионов источников данных на наши скудные данные о ценах, проблема окажется в корне некорректной; в больших данных будет много переменных или комбинаций переменных, которые случайно коррелируют с ценой Apple. Может случиться так, что за прошлый год произведение суточного количества осадков в Узбекистане, умноженное на дневное число рождений в Лагосе, образует идеальный опережающий индикатор цены акций Apple; но использование этого для прогнозирования завтрашней цены вряд ли поможет.

Я не утверждаю, что ситуация безнадежна, но указываю на то, что слепое применение методов, которые хорошо зарекомендовали себя на наборах изображений, может дать отличные результаты тестирования на истории без особого успеха в реальной торговле.

А как насчет освященного веками метода машинного обучения, использующего набор удерживаемых данных? Это подводит нас ко второй проблеме - процессу. Наборы данных машинного обучения почти всегда делятся на обучающие наборы и наборы тестов, поэтому алгоритм тестируется на ранее невидимых данных (данных, на которых он не был обучен). Иногда также существует задерживаемый набор данных, зарезервированный для финального теста, как только алгоритм будет окончательно закреплен. Все это вместе должно спасти нас от чрезмерной подгонки - процесса, посредством которого алгоритм учится реагировать на мелочи набора обучающих данных, а не изучать общие структурные отношения, которые выгодно распространяются на невидимые данные.

Только недавно стало известно, что наука о данных страдает от той же проблемы, которую социальные науки называют p-hacking - процесс изменения вопроса до тех пор, пока данные не дадут вам статистически значимую вероятность, p , правильного ответа. Форма ML называется настройкой гиперпараметров - изменение структуры и смещений нейронных сетей, чтобы найти точную настройку, которая дает лучший ответ, как показывает набор тестовых данных.

Социальные науки противодействуют этому с помощью метода Бонферрони - формулы, которая фактически говорит: чем больше гипотез вы проверяете с помощью своих данных, тем точнее должен быть ответ, прежде чем вы сможете претендовать на определенный уровень статистической значимости. Пока нет общепринятых критериев машинного обучения, чтобы сказать: чем больше вы настраиваете гиперпараметры, тем точнее должен быть ваш ответ, чтобы заявить об улучшении. (Каждый набор гиперпараметров представляет собой гипотетическую модель, проверяемую на данных.) Фактически, нет единого мнения, что это даже проблема; в большинстве академических заявлений о превосходной производительности набора данных не упоминается степень используемой настройки гиперпараметров.

Я думаю, что это не совпадение, что некоторые из наиболее ясных работ по этой проблеме в ML исходят от Маркоса Лопеса де Прадо из Guggenheim Partners, чей фонд может быть одним из немногих, кто успешно применяет машинное обучение к торговле акциями. Они предложили пониженный коэффициент Шарпа для решения этой проблемы, но я не вижу, чтобы кто-нибудь использовал его в сообществе квантов машинного обучения.

Настройка гиперпараметров - процесс странно затягивающий; вы можете сидеть часами, добавляя нейрон или функцию или изменяя коэффициент усиления, в поисках неуловимого улучшения на 0,1% на тестовой выборке. Большинство программных пакетов ML теперь имеют встроенную функцию поиска по гиперпараметрам, поэтому все, что требуется, - это одна или две строки кода. Большинство ученых, занимающихся машинным обучением, были бы потрясены, если бы предположили, что этот процесс является мошенничеством. Это академические дебаты, которые начинают происходить; но, вернувшись в реальный мир с скупыми потоками данных, нет никаких сомнений в том, что это приводит к переобучению алгоритмов. Как забавно показал Мориц Хардт, можно попасть в топ-10 лидеров в соревновании Kaggle, даже не глядя на набор обучающих данных, а просто настроив представление случайных чисел для набора тестов. . В формате Kaggle это должно быть обнаружено или выявлено в финальном тесте на основе удерживаемых данных. В стратегиях краудсорсинговых хедж-фондов ML он должен подвергаться тестированию в реальном времени.

Это приводит нас к третьей проблеме: цифрам - десяткам тысяч специалистов по данным, которые вносят в фонды торговые алгоритмы. Нассим Талеб, возможно, был первым, кто указал на ошибочность предположения о том, что ведущий хедж-фонд имеет по своей сути более совершенную стратегию. Если у вас тысячи фондов, лучший результат за год, скорее всего, окажется в этом положении благодаря глупой удаче, а их торговые решения равносильны подбрасыванию монеты один на один много раз подряд. Точно так же, если мы возьмем тысячи алгоритмов чрезмерной подгонки, каждый из которых имеет отличные результаты тестирования на истории, и продвинем их вперед в течение трех месяцев (всего шестьдесят торговых дней), несомненно, найдутся такие, которые будут торговать вперед с отличными результатами. Нет причин ожидать, что у них и дальше все будет хорошо; чем дольше живое испытание, тем больше шансов, что они в конечном итоге будут признаны просто удачливыми (какое-то время). Судя по эффективности инвестиций Quantiacs, алгоритмы, похоже, перестают работать в тот момент, когда вкладываются реальные деньги.

Numerai может избежать этой проблемы, очень четко определив инвестиционную стратегию, так что решение ML используется просто для точной настройки решений их портфеля. В этом случае толпа действовала бы как комитет экспертов, и их общее решение могло бы не переусердствовать. Функция ранжирования Numerai вознаграждает решения, которые не коррелируют с остальной частью толпы, что усиливает этот результат. С другой стороны, заранее определив стратегию, они не получают гипотетических преимуществ пусть расцветают тысяча цветов от использования толпы для исследования всего пространства инвестиционных возможностей, и их потенциал роста ограничен оптимальной производительностью предопределенная стратегия. Ричард Крейб написал: Разница между машинным обучением краудсорсинга и квантовым краудсорсингом не является тонкой, что предполагает, что этот подход является вполне осознанным.

Подводя итог, можно сказать, что проблемы краудсорсинговой торговли хедж-фондами заключаются в следующем:

· Слепое применение успешных алгоритмов машинного обучения к торговым данным проблематично, потому что торговые данные не являются статистически стационарными и недостаточно обширными для работы популярных методов.

· Переоснащение алгоритмов метапроцессами, такими как настройка гиперпараметров, обычно не наказывается в академических кругах, но является реальной проблемой для финансового моделирования.

· Наличие огромного множества алгоритмов, проверенных короткими периодами реальной торговли, просто гарантирует, что всегда будут высокопроизводительные исполнители, чья работа основана на удаче, а не на фундаментально точной модели машинного обучения, и которые со временем потерпят неудачу. Как и в случае с людьми-трейдерами, в краткосрочной торговле в реальном времени невозможно отличить удачу от точности.

Ни одна из этих проблем не обязательно является неразрешимой. Существуют методы машинного обучения, подходящие для разреженных данных временных рядов. Переоснащение моделей машинного обучения не является неизбежным, но требует большой дисциплины, чтобы этого избежать; По словам одного анонимного специалиста по данным, «к [финансовым] данным нужно относиться как к золоту. Чем больше вы им пользуетесь, тем больше тратите ». Однако проблема работы с огромным количеством алгоритмов не так проста - параллель с измерением производительности человеческих трейдеров глубокая. В некотором смысле единственной мерой является определение времени в будущем, и если алгоритм или трейдер все еще подбрасывает монету в это время, то они успешны. К сожалению, как применить это для выбора краудсорсинговых алгоритмов - это то, что ученые называют «открытой проблемой».

Превосходство по назначению: почему краудсорсинговый ИИ может не работать для хедж-фондов

Вопросы по теме