Буквально на днях я наткнулся на эту формулу во время одного из своих выпускных курсов:

Как человек, имеющий опыт работы в теории управления и глубоком обучении, я очень привык, что мои формулы работают с произвольными коэффициентами. Знаете, мне нравятся мои дельты, эпсилоны и альфы. Конечно, ради моей точки зрения, давайте проигнорируем случайные «хакерские» техники, используемые в глубоком обучении, чтобы заменить более глубокое понимание лежащей в основе теории. Эта область относительно молода, и на этот раз кажется, что эмпирическая инженерия опережает чистую математику. Или, возможно, никто еще не осознал, что теория уже существует, и ее можно найти в какой-нибудь малоизвестной математической статье. Но я отвлекся.

Поискав в Интернете ответ на свой первоначальный вопрос и заголовок этого сообщения в блоге, я наткнулся на удивительно краткое объяснение: проще говоря, это способ устранить зависимость rho от количества точек данных N и измените масштаб до интервала [-1, 1]. Давайте попробуем продвигаться к этому шаг за шагом с помощью попутных визуализаций.

Во-первых, что такое ро Спирмена и почему он полезен? Ро Спирмена - это коэффициент ранговой корреляции, который иногда используется в корреляционном анализе наряду с другими инструментами, такими как хорошо известный коэффициент корреляции Пирсона и тау Кендалла. Корреляции Пирсона обычно достаточно, но иногда, когда зависимость между переменными не является линейной, она может не указать на идеальную корреляцию. В качестве простого примера рассмотрим y = sin (x) в некотором интервале [x1, x2]. Между x и y существует детерминированное отображение, но оно не является линейным (при условии, что к sin (x) не применяются преобразования ядра, y = k с k = sin (x) было бы иначе), но corr (x, y) не 1. Чтобы объяснить, как это работает, я возьму пример из класса, в котором я изначально наткнулся на ро Спирмена:

Визуально легко увидеть, как меньшее перекрытие векторов ранжирования подразумевает более низкую корреляцию признаков A и B. Конечно, это также то, что утверждает формула: rho вычисляется путем вычитания до 1 квадрата поэлементного расстояния векторов рангов, умноженного на 6 / (n * (n²-1)). Как определено, d² принимает минимальное значение 0, когда векторы рангов полностью перекрываются, и максимальное значение n (n²-1) / 3, когда корреляция минимальна, что происходит, когда ранги находятся в противоположном порядке. ([5,4,3,2,1] и [1,2,3,4,5] → d² = 40). Таким образом, наша мера корреляции зависит от количества точек данных, а не стандартизирована, как все остальные. В идеале мы хотели бы остаться в привычном диапазоне [-1, 1].

Следующий логический шаг включает в себя использование наших значений [0, n (n²-1) / 3] и применение линейного преобразования к [0, -2]. Сюда,

если d² = 0 → rho = 1–0 = 1

а также

если d² = n (n²-1) / 3 → rho = 1–2 = -1

Две точки интереса тогда P1 = (n (n²-1) / 3, -2) и P2 = (0, 0) из-за сопоставления, которое мы имеем в виду.

Напомним, что наклон линии между двумя точками равен:

Что, если мы возьмем P1 и P2 в качестве наших двух точек, в конечном итоге будет:

Выглядит знакомо? Формулу ро Спирмена можно разбить на следующие этапы. Мы берем нашу меру расстояния в пространстве рангов (d²), а затем пропускаем ее через линейное аффинное преобразование формы:

T1 : [0, n(n²-1)/3] → [-2, 0], T1(x) = 6*x/(n*(n²-1))

T2 : [-2, 0] → [-1,1], T2(x) = 1-x

T2(T1(d²)): [0, n(n²-1)/3] → [-1,1]

И загадка разгадана.

Заключительные слова:

Я пишу эти сообщения в блоге в основном для того, чтобы объяснить себе вещи, чтобы получить более глубокое и полное понимание того материала, который меня в настоящее время увлекает. Поэтому, пожалуйста, не стесняйтесь указывать на любые ошибки, я буду более чем счастлив исправить их прямо сейчас. Также подписывайтесь на меня в Твиттере.