ML: базовая статистика, среднее значение, медиана и мода

Этот пост является отправной точкой постов о машинном обучении и его первой главы, базовой статистики. Среднее значение, медиана и мода являются основными статистическими данными данных. Этот пост будет посвящен этой базовой статистике и ее приложениям.

Значит

Среднее значение является наиболее известной статистикой. В нашем случае средние значения опухоли и нормальных тканей равны 6,070 и 1,257. Вы можете интуитивно различать два кластера по среднему значению, но нам нужно применить другие тесты, если мы хотим подтвердить, что они разные. Смысл статистики заключается в сводке целых наборов данных с конкретными числами. Таким образом, мы можем восстановить данные только с несколькими статистическими данными. Среднее значение часто используется для нормального распределения с его дисперсией, потому что среднее значение и дисперсия являются параметрами нормального распределения. В нашем случае стандартные отклонения (квадратный корень из дисперсии) составляют 1,319 и 0,486 для опухолевых и нормальных тканей соответственно.

медиана

Медиана - это точка данных, которая является центром, точка больше 50% данных и меньше 50% данных. Медиана более надежна, чем среднее, потому что на нее сильно влияют выбросы. В нашем случае медианные баллы составляют 5,423 и 1,045 для опухоли и нормальных тканей соответственно. Существует альтернативная концепция дисперсии средней статистики. Среднее абсолютное отклонение означает, насколько данные разбросаны, например, дисперсия и стандартное отклонение. Однако он также более надежен, чем дисперсия и стандартное отклонение.

Давайте рассмотрим влияние выбросов.

Среднее значение изменено с 4,992 на 6,237, а медиана изменена с 5,423 на 5,831. Вы можете заметить, что медиана более надежна. Если вы рассчитаете дисперсию и MAD, вы получите тот же результат.

Выбросы

Выброс — это значение, которое не соответствует остальным данным, т. е. не соответствует нашим ожиданиям. Выбросы могут быть вызваны ошибками измерения и редким событием, такое действительно случается. Выбросы могут испортить нашу оценку наборов данных, потому что статистика представляет собой оценку, и мы извлекаем статистику из выборочных наборов данных, в которых есть выброс. Если мы хотим избежать последствий выбросов, мы можем использовать надежную статистику или исключить выбросы.

квантили

Медиана представляет собой 50%-й квантиль данных. Квантиль означает точку данных, в которой больше, чем определенный процент наборов данных. Кроме того, разница между верхним и нижним квартилем называется IQR.

Режим

Режим набора данных является наиболее частым значением. На гистограмме мода точно соответствует самой высокой точке, потому что это максимум наблюдаемых частот. Моды может быть больше одной, гистограмма будет бимодальным распределением.

Корреляция

Существует множество показателей корреляции. Самая популярная — корреляция Пирсона. Он измеряет линейную зависимость x и y. Он масштабируется между -1 и 1, идеальной отрицательной корреляцией и идеальной положительной корреляцией. Если корреляция равна 0, x и y независимы.

Ранг Спирмена и ранговая корреляция Кендалла являются альтернативами корреляции Пирсона, когда данные не представлены линейной зависимостью. Алгоритм ранговой корреляции Спирмена заключается в преобразовании необработанных показателей в ранги, а затем вычислении корреляции Пирсона между рангами. Он может уловить линейную зависимость между точками данных.

Ковариация

Он вычисляет разброс по отношению к другим точкам данных и связан с корреляцией Пирсона.

Это сообщение опубликовано 07 сентября 2020 г.