Данные фондового рынка состоят из процентной доходности фондового индекса S&P 500 за 1250 дней (2001–2005 гг.). Эти данные состоят из процентной доходности за 5 предыдущих дней и количества акций, проданных (в миллиардах) в предыдущий день. Также есть информация о процентной доходности каждый день в течение 2001–2005 годов и о том, был ли рынок вверх или вниз на основе информации о процентной доходности. Затем, основываясь на информации о переменной объема из данных, количество акций, проданных за 2001–2005 гг., имеет тенденцию к увеличению, как показано на графике ниже:

Для этого моделирования, чтобы классифицировать реакцию данных, данные фондового рынка делятся на 2 части: данные за 2001–2004 годы для обучения данных и данные за 2005 год для проверки данных. Обучение данным используется для оценки коэффициента, который используется для качественного прогнозирования или модели классификации, такой как логистическая регрессия. Также для качественного прогнозирования или классификации данных в этом письме используются логистическая регрессия, линейный дискриминантный анализ (LDA), квадратичный дискриминантный анализ (QDA) и K-ближайшие соседи (KNN). Отклик данных зависит от направления, и это моделирование для прогнозирования направления на день вверх или вниз в зависимости от процентной доходности дня. Для другой переменной в данных должна быть переменная-предиктор. Эти переменные представляют собой процентную доходность за 5 предыдущих дней соответственно и объем, выраженный количеством проданных акций.

А. Логистическая регрессия

Классификация направления дня определяется вероятностью, которая получается из следующего уравнения:

где p(X) — это вероятность ответа, β_i для i=0,1,…,p оценка коэффициента модели логистической регрессии и X_i для i=0,1,…,p предиктор модели.

В этом письме, если вероятность p (X) получается близкой к нулю или ниже порога, то прогнозируется, что процент возврата будет ниже. Кроме того, в противном случае вероятность близка к единице или превышает пороговое значение, прогнозируется увеличение процента возврата.

Данные прогнозируются с помощью двух предикторов (Lag1 и Lag2), которые дают лучший результат, чем использование всех предикторов в модели. После этого оценка коэффициента каждого из предикторов составляет β_0 = 0,032, β_1 = -0,056 и β_2 = -0,044. Тогда уравнение логистической регрессии выглядит следующим образом:

Например, используя приведенную выше логистическую регрессию для прогнозирования процента возврата за день, когда процент возврата за 2 дня до следующего дня составляет Lag1 = -0,812 и Lag2 = -0,134, тогда вероятность получается p (X) = 0,521. Исходя из этой вероятности, прогнозируется, что процент возврата за день будет выше порогового значения 0,5.

Следующая таблица ниже представляет собой матрицу путаницы, которая показывает количество прогнозируемого значения из теста данных, и результирующая частота ошибок теста составляет 44%:

Основываясь на матрице путаницы, количество дней, в течение которых можно предсказать увеличение процента возврата, составляет 70 дней, но в тесте данных есть 111 дней, в течение которых процент возврата увеличивается. Также с учетом количества дней возврата в процентах прогнозируется 182 дня, но в тесте данных 141 день.

B. Линейный дискриминантный анализ (LDA)

Как и метод логистической регрессии, метод LDA применяется к обучению данных для прогнозирования процента возврата в тесте данных с двумя предикторами (Lag1 и Lag2). Тогда уравнение используется в методе LDA следующим образом:

K — сумма классов отклика для данного моделирования. Класс 0 соответствует низкому классу, а класс 1 соответствует высокому классу. С π_k — это априорная вероятность для каждого класса, а μ_k — это среднее значение выборки или обучения данных для каждого класса. Тогда ∑ является матрицей дисперсии, и предположение о дисперсии матрицы для этой модели LDA одинаково для всех классов. Последнее δ_k (x) — это значение вероятности, которое используется для классификации ответа по классу.

Модель LDA применяется для обучения, чтобы получить матрицу путаницы следующим образом:

Для этого применения модели LDA для обучения данных частота ошибок теста составляет 44%.

C. Квадратичный дикриминальный анализ (QDA)

Аналогично методу LDA, уравнение, используемое в QDA, выглядит следующим образом:

Однако для приведенного выше уравнения предположения о ковариационной матрице отличаются друг от друга. Также уравнение метода QDA получает матрицу путаницы следующим образом:

Результат теста на ошибку составляет 40%, что лучше, чем модель логистической регрессии и модель LDA для этого моделирования. Таким образом, модель QDA достаточно хороша для прогнозирования или классификации данных фондового рынка на основе значения коэффициента проверки ошибок.

D. K-ближайшие соседи (KNN)

Последней моделью для классификации отклика данных является K-ближайшие соседи (KNN). Для KNN классифицирующий ответ основан на ближайших соседях вокруг данных, которые будут классифицированы. Также K этой модели означает сумму ближайших соседей в качестве ссылки для классификации данных.

После этого для этого моделирования сумма соседей выбирается равной 3 или k=3. Затем применение модели KNN с k = 3 для обучения данных дает матрицу путаницы следующим образом:

Результат проверки ошибок составляет 47%, что является самым высоким показателем ошибок, чем у всех предыдущих моделей. Таким образом, модель KNN с k = 3 не подходит для применения к данным фондового рынка для классификации данных. В противном случае модель QDA дает самую низкую частоту проверки ошибок, поэтому QDA достаточно хорош для данных. Но так много возможных других моделей дают скорость проверки ошибок лучше, чем 4 модели в этом письме. Также, чтобы найти другую модель, это можно сделать, разработав эти 4 модели.

Источник :

Введение в статистическое обучение с применением в электронной книге (Гарет Джеймс, Даниэла Виттен, Тревор Хасти, Роберт Тибширани)