Пять удивительных проблем, связанных с криптографическими прогнозами, которые сводят с ума специалистов по данным

Прогнозы криптоактивов ставят перед собой уникальные задачи, которые выходят за рамки традиционной практики науки о данных.

Идея прогнозирования цены биткойнов с использованием моделей науки о данных невероятно соблазнительна. В конце концов, криптовалюта - это полностью цифровой класс активов, и мы живем в золотую эру машинного обучения, так как же это не идеальное сочетание? Вселенная прогнозирующих моделей машинного обучения для криптоактивов, безусловно, увлекательна. Мы можем комбинировать традиционные количественные методы, основанные на книгах заказов или производных финансовых инструментах, с новыми методами, основанными на анализе цепочки блоков. Быстрый рост таких дисциплин, как глубокое обучение, предлагает новый набор возможностей для решения проблемы прогнозирования криптоактивов, и эти проблемы, безусловно, увлекательны с интеллектуальной точки зрения.

Как проблема машинного обучения, криптоактивы обладают некоторыми особенностями, которые могут бросить вызов большинству методов прогнозирования. Многие из этих проблем выходят за рамки устоявшихся практик машинного обучения, поэтому большинство команд по обработке и анализу данных не думают о них, пока проблема не решится. Из множества проблем, с которыми мы столкнулись при построении прогнозных моделей для криптоактивов на платформе IntoTheBlock, следующие пять, безусловно, вынудили наши команды по анализу данных искать творческие решения, выходящие за рамки норм:

· Неожиданные рыночные события

· Переобучение моделей

· Стоимость исполнения в реальном времени

· Небольшие наборы данных

· Доступность и надежность данных

События нестандартного рынка

Уникальные рыночные события никого не должны удивлять в криптографии, но они все равно раздражают с точки зрения науки о данных. Просто возьмите последние несколько месяцев биткойнов, когда криптоактив перешел от относительно совокупной волатильности к неделям практически без волатильности, к последним нескольким дням, когда волатильность резко возросла. Эти неожиданные события обычно не фиксируются в наборах данных для обучения и могут снизить производительность любой модели машинного обучения. Исключительные события представляют собой проблему в любых сценариях финансовых рынков, но в отношении криптовалюты это особенно беспокоит, поскольку они происходят относительно регулярно.

Переподготовка моделей

Распространенной практикой в прогнозных моделях для наборов данных финансовых временных рядов является регулярное переобучение моделей, чтобы они могли учиться на последних рыночных событиях. В большинстве случаев прогнозные модели необходимо переобучать с нуля, включая старый набор обучающих данных и новые данные. Это не проблема для традиционных рынков капитала, учитывая, что они ведут себя в соответствии с относительно регулярными моделями, и вы можете запланировать периодические циклы переподготовки. В криптовалюте дело обстоит иначе. Представьте, что вы хотите обучить модель волатильности биткойнов последних дней. Как бы ты это сделал? Если вы просто добавляете данные в набор обучающих данных, тогда не будет нового набора данных для тестирования модели (поскольку вы только что включили самые свежие данные). Следовательно, модель подвержена высокому риску переоснащения данной модели. Если вы будете ждать включения новых данных, тогда модель станет уязвимой для последних рыночных изменений.

Затраты на выполнение в реальном времени

Учитывая постоянные изменения на криптовалютных рынках, многие прогнозные модели должны выполняться в режиме реального времени. Это представляет проблемы с двух разных точек зрения:

I. Многие модели машинного обучения не предназначены для работы в реальном времени.

II. Стоимость вычислений при выполнении моделей машинного обучения в реальном времени может стать неуправляемой для многих компаний.

Небольшие наборы данных

Большинство исследований в области количественных финансов основано на довольно больших наборах данных, которые включают десятилетия исполнения в классах активов, таких как акции или товары. Наборы данных в криптовалютных активах относительно невелики, и в большинстве книг заказов отражено всего несколько лет или исполнения, а инструменты, такие как деривативы, только зарождаются. В результате многие модели прогнозирования, которые были созданы в области количественного финансирования, окажутся неприменимыми в криптографии, поскольку они не смогут обобщить какие-либо знания с небольшими наборами обучающих данных.

Доступность и надежность данных

Поскольку это только зарождающаяся отрасль, большинство сборов за рыночные данные в криптовалюте все еще находится на очень ранней стадии. По нашему опыту, не проходит и недели, чтобы у API крупной биржи не возникали перебои в работе или возникали пробелы в плате за передачу данных. Эти проблемы могут привести к серьезным проблемам в прогнозных моделях. Представьте себе модель машинного обучения, которая пытается прогнозировать цену биткойнов каждые пять минут на основе комиссии книги заказов, и при этом теряется связь на 1 час. Модель может легко запутаться и начать делать плохие прогнозы, и, что наиболее важно, специалистам по данным необходимо иметь дело с пробелом в данных в будущих тренировках.

Вселенная прогнозирования криптоактивов увлекательна, но полна проблем, которые могут удивить специалистов по данным. Являясь новым нестабильным финансовым рынком, криптовалюта бросает вызов традиционным нормам сценариев машинного обучения, что делает задачи прогнозирования еще более интересными.