Поскольку я занимался физическими науками, измерения в условиях неопределенности всегда были частью моего мыслительного процесса. В исследовательском анализе данных ключевой метрикой, на которую мы в первую очередь обращаем внимание, часто является коэффициент корреляции. Если быть точным, коэффициент корреляции Пирсона, и я заметил, что за последние годы все больше людей описывают его таким образом. (Интересно, что коэффициент ранговой корреляции Спирмена был первым, что я действительно использовал, когда мне было 13 или 14 лет на уроке географии, я думаю.)

Конечно, коэффициент корреляции Пирсона тесно связан с обыкновенными наименьшими квадратами (и предположениями о нормальном распределении), и большая часть его неправильного поведения в качестве аналитического инструмента в финансах может быть отнесена на счет несостоятельности этих предположений. Измерение корреляции дает точечную оценку, а проблема с точечными оценками заключается в том, что мы не знаем, насколько они надежны.

Вы можете всегда вычислить ρ для парных наборов данных (когда имеется более одной точки данных), но проблема в том, что это измерение не всегда имеет смысл.

Почему точечные оценки проблематичны? Поскольку это любая вероятностная модель данных, шансы на то, что истинное значение параметра, который вы хотите оценить, взяв измеренное значение, равны нулю! Это не потому, что модель бесполезна, а из-за того, как работает вероятность. Вероятность получения любого отдельного значения из любого непрерывного распределения случайных величин в точности равна нулю. Вот почему для непрерывных данных мы всегда говорим о вероятности того, что данные лежат в диапазоне, а основополагающие объекты - это не функции плотности вероятности, а распределения с математической структурой Колмогорова.

Для любого измерения мы фактически не стремимся узнать, совпадает ли истинное значение непрерывного параметра с проведенным нами измерением. Мы не хотим знать, соответствует ли фактическая корреляция совокупности выборочной корреляции. Что мы хотим знать, так это область выборки, в которой мы можем ожидать истинное значение с некоторой разумной степенью уверенности.

Нам нужна интервальная оценка, а не точечная оценка, и мы хотим знать вероятность того, что истинное значение численности населения находится в пределах этого региона.

Для физика-эмпирика, которым я обучен, это единственное измерение чего-либо, имеющего смысл.

По моему опыту, большинство людей понятия не имеют, что мы можем довольно легко сделать значимые утверждения о надежности измерений корреляции и что критический фактор включает не что иное, как размер выборки.

Великий антагонист Карла Пирсона, Рональд Фишер, фактически вычислил выборочное распределение коэффициента корреляции для двух нормально распределенных переменных еще в 1915 году. Выводы включают интегралы в пространствах произвольного числа измерений и демонстрируют невероятные математические способности Фишера, но ответ настолько прост, что должен быть частью словаря каждого специалиста по данным, но, по моему опыту, это не так.

Преобразуем коэффициент корреляции как

И новая статистика имеет стандартную ошибку примерно

Из этой невероятно простой формулы мы сразу же узнаем, что коэффициент корреляции, вычисленный для выборки из 10 точек данных, имеет стандартную ошибку 38% (при нулевой гипотезе нулевой корреляции), поэтому измеренный результат 60% не является статистически отличен от нуля. Перейдите к 30 точкам данных, и вы получите 19% ошибки выборки. Таким образом, наша корреляция 60% теперь значительно превышает результат трех сигм (3,6σ, если быть точным).

Поскольку функции квадратного корня и логарифма существуют в любом программном обеспечении, в котором мы могли бы вычислить выборочную корреляцию из двух наборов чисел, у нас действительно нет оправдания (кроме незнания), чтобы не преобразовать нашу значимую менее точечную оценку корреляции в значимый интервал. оценка мы можем использовать.

Если вам понравилась эта статья и вы хотите прочитать больше моих работ, рассмотрите мою книгу Приключения в области науки о финансовых данных, которая доступна в виде электронной книги для Kindle, а также в Apple Books и Google Книги. Исправленное второе издание будет опубликовано World Scientific.



Вы также можете заказать мягкую обложку прямо у меня на нашем веб-сайте.



Вы можете напрямую поддержать мои статьи на Medium, подписавшись по этой партнерской ссылке.