Чем больше вы стараетесь, тем выше шансы на успех. Можно подумать, что эта проверенная эвристика, применимая в повседневной жизни, также применима, когда кто-то пытается найти преимущество на рынках. Но эта эвристика в данном случае неприменима и фактически является причиной сбоя. Причиной этого является предвзятость интеллектуального анализа данных, эффект, которого нет, когда кто-то пытается найти потерянную ручку в офисе или файл, хранящийся на диске компьютера.

Предвзятость при интеллектуальном анализе данных

Трейдеры и инвесторы обычно пытаются найти преимущества на рынке, проверяя различные идеи на исторических данных, чтобы определить свою историческую прибыльность. Процесс, с помощью которого это достигается, известен как бэктестинг. Идея в принципе проста: математическая модель разрабатывается и затем проверяется на исторических данных. Затем производительность проверяется на новых данных, которые не использовались при тестировании на исторических данных, и с помощью различных других методов проверки. Если характеристики модели неудовлетворительны, то либо ее модифицируют, либо начинается поиск новой модели. Схема этого процесса показана ниже [1].

Как показано на рисунке выше, существует три основных компонента систематической ошибки интеллектуального анализа данных. Первый связан с подгонкой модели кривой на исторические данные. Обратите внимание, что все модели аппроксимируются кривыми по данным относительно некоторой произвольной целевой функции. Проблема в том, не слишком ли они подогнаны, но это может не иметь значения, если доминируют две другие формы предвзятости. Второй компонент предвзятости при майнинге данных - это предвзятость выбора после первого шага бэктестирования из-за принятия потенциального преимущества при отклонении многих других. Систематическая ошибка отбора снова вводится после проверки эффективности на невидимых данных, также известной как вне выборки.

Третий и наиболее значительный компонент систематической ошибки интеллектуального анализа данных связан с отслеживанием данных. Это происходит, когда модель (стратегия) отклоняется после этапа проверки и процесс перезапускается. Обычно никто не уходит навсегда после первого сбоя, но большинство из них неустанно использует современные инструменты для сбора данных с целью обнаружения прибыльного преимущества. В этом случае все инструменты проверки становятся частью процесса и перестают быть эффективными.

Короче говоря, когда вы слышите, как кто-то утверждает, что он выполнил тест вне выборки и нашел хорошие результаты не только в финансах, но и в любой другой области, вы должны спросить, сколько моделей они отклонили до этого. На самом деле становится еще хуже: вы должны спросить их, знают ли они, сколько моделей, протестированных на одних и тех же данных, было отклонено всеми стремящимися к количественным трейдерам и инвесторам. Если они знают, то были предложены некоторые методы для корректировки статистики валидации с учетом смещения интеллектуального анализа данных, но в большинстве случаев это даже не требуется, поскольку смещение уже велико и никакие тесты валидации не являются надежными. Дело в том, что отклоненная модель может быть на самом деле хорошей (ошибка типа II) или принятая модель может быть на самом деле плохой (ошибка типа I). Никогда не узнать, поскольку невозможно узнать о предвзятости коллективного сбора данных на всей планете. На рисунке 2 ниже показано, как работает эта накопленная систематическая ошибка интеллектуального анализа данных.

На рисунке 2 a - некоторая ограниченная нелинейная функция N, количества испытаний и других параметров, которые имеют отношение к данным и модели. Дело в том, что вероятность P найти истинное ребро стремится к 0, когда N становится большим. Противоинтуитивный результат состоит в том, что постоянное тестирование новых идей на истории снижает шансы найти преимущество. Это верно для ручного тестирования на истории, но это также более заметно в случае программ машинного обучения, которые собирают данные для поиска преимуществ на рынке. (Подробнее см. В этой статье.)

Так как же нам справиться с парадоксом неуловимого рыночного преимущества? Один из выходов - использовать бэктестинг только тогда, когда есть уникальная идея, которая вряд ли была бы найдена другими. Очевидно, это сложно, но возможно. Другое средство, когда часто используется интеллектуальный анализ данных, - это использование более сложных тестов, которые минимизируют систематическую ошибку интеллектуального анализа данных, вместо того, чтобы пытаться ее оценить. В целом систематическую ошибку при интеллектуальном анализе данных невозможно оценить, поскольку неизвестны как реальное количество испытаний, так и ее источники.

Эти и другие факты о тестировании на исторических данных, а также примеры и правила борьбы с предвзятостью интеллектуального анализа данных можно найти в [1].

[1] Харрис. М., Технический анализ одурачен: опасности построения графиков, тестирования на исторических данных и интеллектуального анализа данных, 2015, Доступно только в Интернете.

Примечание редакторам Data Science. Хотя мы разрешаем независимым авторам публиковать статьи в соответствии с нашими правилами и рекомендациями, мы не поддерживаем вклад каждого автора. Не стоит полагаться на работы автора без консультации с профессионалами. См. Подробности в наших Условиях для читателей.

Об авторе: Майкл Харрис - трейдер и автор бестселлеров. Он также является разработчиком первого коммерческого программного обеспечения для определения моделей поведения цены без параметров 17 лет назад. Последние семь лет он работал над разработкой DLPAL, программного обеспечения, которое можно использовать для выявления краткосрочных аномалий в рыночных данных для использования с фиксированными моделями и моделями машинного обучения. Щелкните здесь, чтобы узнать больше.