Описательный статистический анализ помогает понять ваши данные и является очень важной частью машинного обучения. Это связано с тем, что машинное обучение предназначено для прогнозирования. С другой стороны, статистика заключается в том, чтобы делать выводы из данных, что является необходимым начальным шагом. В этом посте вы узнаете о наиболее важных концепциях описательной статистики. Они помогут вам лучше понять, что ваши данные пытаются рассказать вам, что приведет к общему лучшему пониманию и модели машинного обучения.

Содержание:

  • Вступление
  • Нормальное распределение
  • Центральная тенденция (среднее, мода, медиана)
  • Меры изменчивости (размах, межквартильный размах)
  • Дисперсия и стандартное отклонение
  • Модальность
  • Асимметрия
  • Эксцесс
  • Резюме

Вступление

Совершенно необходимо провести описательный статистический анализ вашего набора данных. Многие люди пропускают эту часть и поэтому теряют много ценных сведений о своих данных, что часто приводит к неправильным выводам. Не торопитесь, внимательно запустите описательную статистику и убедитесь, что данные соответствуют требованиям для дальнейшего анализа.

Но прежде всего мы должны рассмотреть, что такое статистика на самом деле:

Статистика - это раздел математики, который занимается сбором, интерпретацией, организацией и интерпретацией данных.

В статистике есть две основные категории:

1. Описательная статистика: в Описательной статистике вы описываете, представляете, обобщаете и систематизируете свои данные (совокупность) либо с помощью численных расчетов, либо графиков или таблиц.

2. Логическая статистика: логическая статистика производится путем более сложных математических расчетов и позволяет нам делать выводы о тенденциях, а также делать предположения и прогнозы относительно совокупности на основе исследования взятой из нее выборки.

Нормальное распределение

Нормальное распределение - одно из наиболее важных понятий в статистике, поскольку почти все статистические тесты требуют нормально распределенных данных. Он в основном описывает, как выглядят большие выборки данных, когда они построены. Иногда ее называют «колоколообразной кривой» или «гауссовой кривой».

Для вывода статистики и вычисления вероятностей требуется, чтобы было задано нормальное распределение. Это в основном означает, что если ваши данные не распределяются нормально, вам нужно быть очень осторожным, какие статистические тесты вы применяете к ним, поскольку они могут привести к неправильным выводам.

Нормальное распределение дается, если ваши данные симметричны, имеют форму колокола, центрированы и одномодальны.

В идеальном нормальном распределении каждая сторона является точным зеркалом другой. Это должно выглядеть так, как показано на картинке ниже:

Вы можете видеть на картинке, что распределение имеет форму колокола, что просто означает, что оно не сильно пиковое. Унимодальный означает, что есть только один пик.

Главная тенденция

В статистике нам приходится иметь дело со средним значением, модой и медианой. Их также называют «центральной тенденцией». Это всего лишь три различных типа «средних» и, безусловно, самые популярные.

Среднее значение - это просто среднее значение, которое считается наиболее надежным показателем центральной тенденции для создания предположений о генеральной совокупности из одной выборки. Центральная тенденция определяет тенденцию кластеризации значений ваших данных вокруг своего среднего значения, режима или медианы. Среднее значение рассчитывается как сумма всех значений, разделенная на количество значений.

Режим - это значение или категория, которые чаще всего встречаются в данных. Таким образом, набор данных не имеет режима, если ни одно число не повторяется или если нет одинаковых категорий. Возможно, что набор данных имеет более одного режима, но я расскажу об этом в разделе «Модальность» ниже.
Этот режим также является единственной мерой центральной тенденции, которую можно использовать для категориальных переменных, поскольку вы не можете вычислить, например, среднее значение для переменной «пол». Вы просто указываете категориальные переменные в виде чисел и процентов.

Медиана - это «среднее» значение или средняя точка ваших данных, также называемая «50-м процентилем». Обратите внимание, что выбросы и искаженные данные влияют на медианное значение гораздо меньше, чем на среднее значение. Я объясню это на примере: представьте, что у вас есть набор данных о жилищных призах, которые варьируются в основном от 100000 до 300000 долларов, но содержат несколько домов стоимостью более 3 миллионов долларов. Эти дорогие дома окажут сильное влияние на среднее значение, поскольку это сумма всех значений, разделенная на количество значений. Эти выбросы не сильно повлияют на медианное значение, поскольку это только «среднее» значение всех точек данных. Поэтому медиана - это гораздо более подходящая статистика, чтобы сообщить о ваших данных.

При нормальном распределении все эти меры попадают в одну и ту же среднюю точку. Это означает, что среднее значение, мода и медиана равны.

Меры изменчивости

Самыми популярными показателями изменчивости являются диапазон, межквартильный диапазон (IQR), дисперсия и стандартное отклонение. Они используются для измерения степени разброса или изменчивости ваших данных.

Диапазон описывает разницу между наибольшим и наименьшим точками в ваших данных.

Межквартильный размах (IQR) - это мера статистической дисперсии между верхним (75-м) и нижним (25-м) квартилями.

В то время как диапазон измеряет начало и конец точки данных, межквартильный диапазон является мерой того, где находится большинство значений.

Новичкам часто бывает трудно понять разницу между стандартным отклонением и дисперсией, но я подробно объясню ее ниже.

Дисперсия и стандартное отклонение

Стандартное отклонение и дисперсия также измеряют, как диапазон и IQR, насколько различаются наши данные (например, дисперсия). Следовательно, они оба являются производными от среднего.

Дисперсия вычисляется путем нахождения разницы между каждой точкой данных и средним значением, возведения их в квадрат, суммирования и последующего усреднения этих чисел.

Квадраты используются во время расчета, потому что они имеют больший вес для выбросов, чем для точек, близких к среднему. Это предотвращает то, что различия выше среднего нейтрализуют различия ниже среднего.

Проблема с дисперсией заключается в том, что из-за возведения в квадрат она не в той же единице измерения, что и исходные данные.

Допустим, вы имеете дело с набором данных, который содержит значения в сантиметрах. Ваше отклонение будет в квадратных сантиметрах и, следовательно, не лучший показатель.

Вот почему стандартное отклонение используется чаще, потому что оно находится в исходной единице. Это просто квадратный корень из дисперсии, и поэтому он возвращается к исходной единице измерения.

Давайте посмотрим на пример, иллюстрирующий разницу между дисперсией и стандартным отклонением:

Представьте себе набор данных, который содержит значения в сантиметрах от 1 до 15, что дает среднее значение 8. Возведение в квадрат разницы между каждой точкой данных и средним значением и усреднение квадратов дает дисперсию 18,67 (в квадрате сантиметров), в то время как стандартное отклонение составляет 4,3 сантиметра.

Когда у вас низкое стандартное отклонение, ваши точки данных, как правило, близки к среднему. Высокое стандартное отклонение означает, что ваши точки данных разбросаны по широкому диапазону.

Стандартное отклонение лучше всего использовать, когда данные являются одномодальными. При нормальном распределении примерно 34% точек данных лежат между средним значением и одним стандартным отклонением выше или ниже среднего. Поскольку нормальное распределение является симметричным, 68% точек данных попадают между одним стандартным отклонением выше и одним стандартным отклонением ниже среднего. Примерно 95% попадают между двумя стандартными отклонениями ниже среднего и двумя стандартными отклонениями выше среднего. И примерно 99,7% попадают между тремя стандартными отклонениями выше и тремя стандартными отклонениями ниже среднего.

Картинка ниже прекрасно это иллюстрирует.

С помощью так называемого Z-Score вы можете проверить, на сколько стандартных отклонений ниже (или выше) среднего значения находится конкретная точка данных. С пандами вы можете просто использовать функцию std (). Чтобы лучше понять концепцию нормального распределения, мы теперь обсудим концепции модальности, симметрии и пиковости.

Модальность

Модальность распределения определяется количеством содержащихся в нем пиков. Большинство распределений имеют только один пик, но возможно, что вы встретите распределения с двумя или более пиками.

На рисунке ниже показаны наглядные примеры трех типов модальности:

Унимодальный означает, что распределение имеет только одну вершину, что означает, что у него есть только одна часто встречающаяся оценка, сгруппированная вверху. Бимодальное распределение имеет два часто встречающихся значения (два пика), а мультимодальное - два или несколько часто встречающихся значений.

Асимметрия

Асимметрия - это показатель симметрии распределения.

Следовательно, он описывает, насколько распределение отличается от нормального распределения влево или вправо. Значение асимметрии может быть положительным, отрицательным или нулевым. Обратите внимание, что идеальное нормальное распределение будет иметь асимметрию, равную нулю, потому что среднее значение равно медиане.

Ниже вы можете увидеть иллюстрацию различных типов перекоса:

Мы говорим о положительном перекосе, если данные накапливаются влево, в результате чего хвост указывает вправо.

Отрицательный перекос возникает, если данные накапливаются вправо, в результате чего хвост остается направленным влево. Обратите внимание, что положительные перекосы встречаются чаще, чем отрицательные.

Хорошим показателем асимметрии распределения является коэффициент асимметрии Пирсона, который обеспечивает быструю оценку симметрии распределений. Чтобы вычислить асимметрию в пандах, вы можете просто использовать функцию skew ().

Эксцесс

Эксцесс определяет, является ли ваш набор данных с тяжелым или легким хвостом по сравнению с нормальным распределением. Наборы данных с высоким эксцессом имеют тяжелые хвосты и больше выбросов, а наборы данных с низким эксцессом, как правило, имеют светлые хвосты и меньше выбросов. Обратите внимание, что гистограмма - это эффективный способ показать как асимметрию, так и эксцесс набора данных, потому что вы можете легко определить, что с вашими данными что-то не так. График вероятности также является отличным инструментом, потому что нормальное распределение будет следовать прямой линии.

Вы можете увидеть и то, и другое для набора данных с положительным перекосом на изображении ниже:

Хороший способ математически измерить эксцесс распределения - это измерение эксцесса Фишером.

Теперь мы обсудим три наиболее распространенных типа эксцесса.

Нормальное распределение называется мезокуртическим и имеет эксцесс равный нулю или около нуля. Распределение platykurtic имеет отрицательный эксцесс, а хвосты очень тонкие по сравнению с нормальным распределением. Распределения Лептокуртика имеют эксцесс больше 3, а жирные хвосты означают, что распределение дает более экстремальные значения и что оно имеет относительно небольшое стандартное отклонение.

Если вы уже определили, что распределение искажено, вам не нужно вычислять эксцесс, поскольку распределение уже не является нормальным. В пандах вы можете просмотреть эксцесс, просто вызвав функцию эксцесс ().

Резюме

Этот пост дал вам хорошее представление об описательной статистике. Вы узнали, как выглядит нормальное распределение и почему оно важно. Кроме того, вы узнали о трех различных типах средних значений (среднее значение, мода и медиана), также называемых центральной тенденцией. Впоследствии вы узнали о размахе, межквартильном размахе, дисперсии и стандартном отклонении. Затем мы обсудили три типа модальности и то, что вы можете описать, насколько распределение отличается от нормального распределения с точки зрения асимметрии. Наконец, вы узнали о распределениях Leptokurtic, Mesokurtic и Platykurtic.

Этот пост изначально был опубликован в моем блоге (https://machinelearning-blog.com).