Самый важный шаг в компьютерном зрении или машинном обучении - хорошо понимать данные и использовать эти знания для выбора наилучшего дизайна.

Открытый вопрос ..

Как хорошо понимать данные?

Ответ заключается в применении статистических методов ...

Следовательно, красная тема этого урока - понять самый важный статистический метод, то есть корреляцию.

Слово корреляция используется в повседневной жизни для обозначения некоторой формы ассоциации. Это статистический метод, который может показать, насколько сильно связаны пары переменных. Можно сказать, что мы заметили корреляцию между посещаемостью студентов и полученными оценками. Однако в статистических терминах мы используем корреляцию для обозначения связи между двумя количественными переменными. Когда одна переменная увеличивается, а другая увеличивается, корреляция положительная; когда одно уменьшается, а другое увеличивается, оно отрицательно. На рис. 1 показаны положительная, отрицательная корреляция и отсутствие корреляции.

Каково значение корреляции?

В машинном обучении, прежде чем применять какой-либо классификатор, мы должны выяснить корреляцию паттернов внутреннего намерения и внутренних намерений. Очевидно, что корреляция паттернов внутреннего намерения выше, чем паттернов взаимного намерения. Например, шаблоны одного и того же класса имеют больше привязок ассоциаций, чем шаблоны разных классов. Хорошей практикой является определение гипотезы вашей постановки проблемы с помощью корреляции и проверьте, действительно ли проблема заключается в классификации паттернов.

В этом уроке вы узнаете о

1. Коэффициент корреляции

2. Метод корреляции Пирсона и Спирмена.

3. Взгляды с прикладной точки зрения

1. Коэффициент корреляции

Степень ассоциации измеряется коэффициентом корреляции. Коэффициент корреляции - это способ оценить отношения. Коэффициенты корреляции имеют значение от -1 до 1. «0» означает, что между переменными нет никакой связи, в то время как -1 или 1 означает, что существует абсолютное отрицательное или отрицательное значение. положительная корреляция. Таблица 1 описывает силу отношений.

Как получить это значение r ..

Существуют разные методы корреляции для получения этого r

Начнем с интересного…

2. Метод корреляции Пирсона и Спирмена

Корреляция Пирсона является параметрической, а корреляция Спирмена - непараметрическим критерием.

Сначала поймите разницу в параметрических Vs. Непараметрический тест.

Корреляция Пирсона. Корреляция Пирсона r - это наиболее широко используемая статистика корреляции для измерения степени взаимосвязи между линейно связанными переменными. Например, на фондовом рынке, если мы хотим измерить, как две акции связаны друг с другом, корреляция Пирсона r используется для измерения степени взаимосвязи между ними. Следующая формула используется для вычисления корреляции Пирсона r:

r = коэффициент корреляции r Пирсона
N = количество наблюдений
∑xy = сумма произведений парных оценок
∑x = сумма x оценок
∑y = сумма баллов по y
∑x2 = сумма значений в квадрате x
∑y2 = сумма баллов в квадрате y

Ключевые моменты:

1. Обычно, когда данные распределены нормально, мы используем корреляцию Пирсона. Нормальное распределение всегда симметрично относительно среднего, которое выглядит как колоколообразная кривая.

2. Линейность не является предположением корреляции Пирсона. Корреляция Пирсона определяет степень линейности зависимости. Отношение является линейным, если переменные увеличиваются или уменьшаются с постоянной скоростью.

Скрипт Python для вычисления коэффициента корреляции Пирсона

››› импортировать matplotlib.pyplot как plt

››› из статистики импорта scipy

››› np.random.seed (12345678)

››› x = np.random.random (10)

››› y = np.random.random (10)

››› наклон, точка пересечения, r_value, p_value, std_err = stats.linregress (x, y)

куда,

наклон - это наклон линии регрессии.

перехват - это перехват линии регрессии.

r-value - это значение корреляции Пирсона. Значение r находится в диапазоне от -1 до 1.

P-значение. P-значение является критическим значением и зависит от допущенной вами вероятности ошибки типа I. Его также называют проверкой гипотезы, поскольку он сообщает, принять или отклонить нулевую гипотезу. (Нулевая гипотеза - это гипотеза, которая утверждает, что между двумя переменными нет статистической значимости. Это гипотеза, которую исследователь попытается опровергнуть)

В общем, если p

Std_err - стандартная ошибка оценки.

Дополнительные объяснения о значении r и p

r-значение говорит об изменении в данных.

P-значение говорит о значимости модели (т.е. модель хорошо соответствует данным)

Давайте разберемся с четырьмя возможностями:

1. Значение r (низкое) и p-значение (низкое) - модель мало что объясняет об изменениях, но имеет большое значение. (Лучше чем ничего)

2. Значение r (низкое) и значение p (высокое) - модель мало объясняет вариации и не значима (худшая модель).

3. Значение r (высокое) и значение p (низкое) - Модель многое говорит о вариациях и значимости. (Лучшая модель)

4. Значение r (высокое) и p-значение (высокое) - Модель хорошо объясняет вариации, но не значима. (Бесполезно)

Ранговая корреляция Спирмена. Ранговая корреляция Спирмена - это непараметрический тест, который используется для измерения степени связи между двумя переменными. Тест ранговой корреляции Спирмена не содержит каких-либо предположений о распределении данных и является подходящим корреляционным анализом, когда переменные измеряются по шкале, по крайней мере, порядковой.

Следующая формула используется для вычисления ранговой корреляции Спирмена:

ρ = ранговая корреляция Спирмена

di = разница между рангами соответствующих переменных
n = количество наблюдений

Ключевые моменты:

1. В Spearman Rank корреляции потеря информации происходит, так как она работает с рангами.

2. Как правило, для монотонной связи между переменными используется ранговая корреляция Спирмена. В монотонном отношении переменные имеют тенденцию двигаться в одном направлении, но не с постоянной скоростью.

3. Если в данных есть выбросы, то есть несколько значений далеко от других, используйте коэффициент ранговой корреляции Спирмена.

Скрипт Python для вычисления коэффициента корреляции рангов Спирмена.

››› из статистики импорта scipy

››› np.random.seed (12345678)

››› x = np.random.random (10)

››› y = np.random.random (10)

››› scipy.stats.stats.spearmanr (x1, y1)

3. Виды с прикладной точки зрения

Вот несколько предложений с прикладной точки зрения:

1. Прежде чем принимать решение о применении ранговой корреляции Пирсона или Спирмена, рекомендуется взглянуть на диаграмму рассеяния.

››› скрипт Python для построения диаграммы рассеяния

››› импортировать numpy как np

››› импортировать matplotlib.pyplot как plt

# Исправление случайного состояния для воспроизводимости

››› np.random.seed (19680801)

>>> N = 50

››› x = np.random.rand (N)

››› y = np.random.rand (N)

››› цвета = np.random.rand (N)

››› область = (30 * np.random.rand (N)) ** 2 # Радиусы от 0 до 15 точек

››› plt.scatter (x, y, s = площадь, c = цвета, альфа = 0,5)

››› plt.show ()

2. Для небольшой выборки советую использовать ранговую корреляцию Спирмена.

3. Для большой выборки используйте корреляцию Пирсона.

Последний

Я предпочитаю коэффициент корреляции Пирсона, потому что

1. Корреляция Пирсона имеет большую статистическую силу.

2. Корреляция Пирсона обеспечивает более прямую совместимость результатов исследований, поскольку большинство исследований сообщают о корреляции Пирсона.

3. Во многих случаях разница между коэффициентами корреляции Пирсона и Спирмена минимальна.

4. Очевидно, это соответствует моим теоретическим интересам.

Вперед!

Надеюсь, вам понравился этот пост. Учебное пособие подходит для начала статистического анализа с использованием корреляции. Этот пост очень информативен не только для получения знаний о ранговой корреляции Пирсона и Спирмена, но и с точки зрения применимости. Удачи!

Стоит прочитать!

Вас интересует глубокое обучение - сверточная нейронная сеть!

1. Классификация документов с использованием глубокого обучения - Нажмите здесь

2. Повышение производительности сверточной нейронной сети! Нажмите здесь