Шесть недель назад я решил заняться своим проектом Capstone во Flatiron по прогнозированию волатильности биткойнов, думая, что это убьет нескольких зайцев одним выстрелом — это даст мне возможность узнать больше о данных временных рядов, нейронных сетях и финансах или криптовалютах. точнее. Я и не подозревал, что чуть не покончил с собой в процессе, и вот почему.

До того, как приступить к этому проекту, у меня было очень мало знаний о мире финансов и еще меньше о криптовалютах. Тем не менее, я всегда считал, что нужно знать хотя бы основы денег и инвестиций, и что криптовалюты никуда не денутся. Я наивно полагал, что включение всего этого в мой проект Capstone Project будет эффективным способом заставить себя изучать предметы. Это, однако, оказалось рецептом серии бессонных ночей в сочетании с эмоциональными поездками на американских горках, спрессованными в несколько коротких недель, но в конце туннеля есть свет.

Первая неделя

Ну, чтобы предсказать волатильность, мне сначала нужно знать, что это такое и как она измеряется; поэтому я начал с Investopedia и YouTube. Конечно, ни в первый раз, ни во второй, ни даже в четвертый раз материалы я не понял до конца. После недели просмотра видео, чтения документов и чувства подавленности я все еще не мог решить, какую формулу использовать для измерения волатильности. Это потому, что в нем так много свободы — волатильность может выражаться с разной частотой (например, ежечасно, ежедневно, еженедельно, ежемесячно, ежегодно), и есть несколько способов ее расчета с использованием доходности или логарифмической доходности. Во всех исследовательских работах, которые я нашел, использовались немного разные формулы с разными окнами интервалов для разных частот, и я не мог понять, какая из них будет наиболее подходящей для криптовалюты. Страх и тревога начали подкрадываться.

Вторая неделя

Я связался с другом, с которым не разговаривал почти два года. Он торгует с 18 лет и является единственным человеком, которого я знаю, обладающим довольно глубоким знанием рынков. Я объяснил, что я хотел сделать, что я узнал, с чем я боролся, и спросил, может ли он каким-то образом указать мне правильное направление. Я получил список статей для прочтения, курсов для прохождения, книг для чтения, подкастов для прослушивания; и это было именно то, что я сделал.

Я начал с Курсов опционов Deribit, в которых объяснялось, что такое опционы, как они работают, а также роль волатильности в торговле опционами. Я объединил это с одной из лучших книг Юана Синклера Позиционная торговля опционами. Потом я начал слушать подкасты Флирт с моделями по дороге на работу. Труднее всего было сохранять спокойствие в этом море знаний и смириться с тем, что я не смогу выучить все за один короткий месяц. В конце концов, это область, которую некоторые высокоинтеллектуальные люди изучают всю свою жизнь. Я ходил туда-сюда по разным ресурсам, дополняя один другим. Постепенно мне удалось превратить некоторые из моих ежедневных срывов в краткие моменты радости — иногда это было просто осознание того, что я смог понять тот же материал немного больше, чем за неделю до этого.

Третья и четвертая недели

Не желая, чтобы стремление к знанию предметной области затмило достижение технических навыков, я записался на курс DeedLearning.AI TensorFlow Sequence, Time Series and Prediction. Каждую неделю я следил за лекцией, используя в основном набор данных о биткойнах, полученный от финансового API Yahoo Finance. Поскольку мой основной подход к проекту заключается в сравнении производительности традиционных моделей прогнозирования волатильности GARCH с производительностью рекуррентных нейронных сетей, мне также нужно было убедиться, что я понимаю модели GARCH и как правильно их настроить, прежде чем делать какие-либо суждения об их точности. . К концу четвертой недели я просмотрел около 15 различных руководств на YouTube о том, как реализовать модели GARCH с использованием различных методов — Python, R и даже Excel.

Наука о данных — это, по сути, итерации. Часто мы не знаем заранее, что будет хорошо работать с нашим конкретным набором данных или для нашей конкретной бизнес-задачи; и единственный способ узнать, какой размер интервала окна и какую частоту использовать для моего проекта, - это попробовать как можно больше. Каждый раз, когда я читал новую информацию или узнавал о новой технике, мне не терпелось реализовать ее в своих моделях. Мои тетради были исписаны «Что, если я сделаю это? Могу ли я сделать это? Что насчет этого? Почему оно это делает?» Спустя почти 100 моделей, большинство из которых оказались довольно плохими, я, наконец, смог улучшить прогностическую способность своих моделей с помощью итераций и достичь почти 95% точности прогнозирования величины волатильности за 7 дней в течение тестового периода 07/. с 24.08.2021 по 22.08.2021.

Еще один важный навык, который я приобрел в ходе этого процесса, — использовать письмо для реорганизации мыслей, которые постоянно путались в моей голове. Это помогло мне найти способ соединить точки и объединить информацию, собранную из разных источников, связным образом. Возможно, это не «путь»… пока, но пока я продолжаю следовать ему, он будет постепенно развиваться по мере роста моих знаний и опыта.

Весь процесс был мучительно напряженным, но в то же время вдохновляющим. Возможно, у меня появилось несколько дополнительных седых волос, но это того стоило, потому что я расширил свои знания в области, которая выходит далеко за пределы моей зоны комфорта. Одним из преимуществ (или недостатков?) Data Scientist является возможность работать над проектами, относящимися к разным областям, и поэтому нам нужно научиться быстро заполнять пробелы в знаниях предметной области. В настоящее время это можно сделать разными способами — обратившись к экспертам в этой области, собрав информацию из исследовательских работ, книг, статей, онлайн-курсов и даже подкастов, но это необходимо делать в любом случае. Этот опыт научил меня не бояться прыгать и мочить ноги, руки и даже волосы. Ведь мы не можем научиться плавать, не залезая в воду.