Описательная статистика очень важна, поскольку она количественно описывает данные, которые очень нужны в машинном обучении. Они помогают визуализировать или, скорее, представлять наши необработанные данные с помощью графиков, таблиц или просто числовых расчетов. Таким образом, имея сводку данных, мы можем легко описать дисперсию, измерить центральную тенденцию и форму заданных данных.

Здесь мы фокусируемся на всей совокупности, а не только на ее выборке. Возьмем пример компании Samsung. Они производят много продуктов, поэтому, если мы хотим узнать, какой продукт продавался больше всего в январе, мы просто соберем данные и нарисуем график, который легко предоставит нам визуальное представление обо всех продуктах и ​​самых продаваемых продуктах. .

В машинном обучении требуется базовое понимание распределения данных, описательной статистики и визуализации данных, чтобы помочь вам определить методы при выполнении таких задач, как обнаружение выбросов, вменение отсутствующих значений, выборка данных, масштабирование данных, кодирование переменных.

Итак, как мы описываем эти данные?

Данные описываются с использованием

  1. мера центральной тенденции,
  2. Мера распространения и
  3. Зависимости между данными

Показатель центральной тенденции

Центральная тенденция данных может быть определена как числовое значение, вокруг которого обычно группируется большинство значений из данных. Есть три основных показателя центральной тенденции:

  1. Среднее или среднее, вероятно, является наиболее часто используемым методом описания центральной тенденции. Среднее значение вычисляется как сумма всех наблюдений, деленная на количество наблюдений.

«Когда НЕ использовать среднее значение?»

На среднее влияют выбросы. Таким образом, если наблюдения больше или меньше, чем большинство наблюдений, среднее значение имеет тенденцию отклоняться в сторону этих наблюдений.

Если распределение набора данных смещено (в сторону выбросов), мы НЕ ВЫБИРАЕМ среднее значение.

«В каких случаях MEAN лучше всего измеряет центральную тенденцию?»

Когда ваши данные непрерывны и симметричны, то есть данные нормально распределены

2. Медиана — это показатель, найденный точно в середине набора наблюдений. Он делит данные пополам и также называется 50-м процентилем. На него гораздо меньше влияют выбросы и искаженные данные, чем на среднее значение.

Если нет. наблюдения (N) в наборе данных является нечетным, самое среднее наблюдение является медианным ((N+1)/2)-м положением наблюдения. Если нет. наблюдения (N) в наборе данных является четным, медиана будет средним значением двух центральных элементов (N/2) и ((N/2)+1)-й позиции наблюдения.

"Когда МЕДИАНА является лучшим показателем центральной тенденции?"

Когда ваши данные искажены или вы имеете дело с ОРДИНАЛЬНЫМИ данными, то есть с упорядоченными данными, мы используем медиану.

3. Мода — это наблюдение, которое чаще встречается в наборе данных. Следовательно, набор данных не имеет режима, если ни одно из наблюдений не является одинаковым или ни одно из наблюдений не принадлежит к одной и той же категории.

Возможно, набор данных имеет более одной моды. Это единственная мера центральной тенденции, которую можно использовать для категориальных переменных.

«Когда MODE является лучшим показателем центральной тенденции?»

Мода — это наименее используемый показатель центральной тенденции. Это будет лучше всего измерять только при работе с НОМИНАЛЬНЫМИ данными, т.е. неупорядоченными данными.

Мера распространения

Показатели разброса (также называемые показателями разброса) говорят вам о том, насколько широк набор данных. Разброс данных описывает, насколько схожи или разнообразны наборы наблюдений. Наиболее популярными показателями спреда являются диапазон, выбросы, межквартильный диапазон (IQR), дисперсия и стандартное отклонение.

  1. Диапазон – это разница между самым высоким и самым маленьким наблюдениями в наборе данных.

Диапазон = наивысшее наблюдение — наименьшее наблюдение

2. Межквартильный размах (IQR) – это показатель статистической дисперсии между верхним (75-м) и нижним (25-м) квартилями.

Квартиль — это разделение набора наблюдений на четыре интервала на основе значений данных.

Межквартильный диапазон — это разница между верхним и нижним квартилями.

Межквартильный диапазон, IQR = Q3 — Q1 (это центральные 50% данных)

Где:

Q1 = Медиана первой половины наблюдений, расположенных в порядке возрастания

Q3 = медиана второй половины наблюдений, расположенных в порядке возрастания.

На приведенном выше рисунке Рис. Представление BoxPlot для IQR, с помощью BOXPLOT мы узнаем межквартильный диапазон IQR, который сообщает нам диапазон,
в котором находится основная часть значений/наблюдений, и поэтому IQR предпочтительнее Range. Также IQR помогает нам выявлять выбросы в наборе данных. Это дает четкое представление о центральной тенденции данных.

Таким образом, IQR играет важную роль в машинном обучении, поскольку помогает понять набор данных, который необходим для выполнения любой обработки EDA или очистки данных.

3. Выбросы

определение Википедии,

В статистике выброс – это точка наблюдения, удаленная от других наблюдений.

Таким образом, из приведенного выше определения ясно, что любое наблюдение, которое маловероятно ведет себя в наборе данных, является выбросом. Мы также можем сказать, что эти наблюдения действительно сильно влияют на измерение и производительность или точность модели.

Если точка данных/наблюдение 1,5*IQR ниже первого квартиля (Q1) или 1,5*IQR выше третьего квартиля (Q3), то это выброс.

4. Дисперсия. Дисперсия рассчитывается путем нахождения разницы между каждым наблюдением в наборе данных и средним значением, их возведения в квадрат, суммирования и последующего получения среднего значения этих чисел.

Чем больше разброс набора данных относительно среднего, тем больше дисперсия.

Сначала давайте разберемся с отклонением.

Мера разницы между средним значением и точкой данных (наблюдением) называется отклонением. Чтобы рассчитать это отклонение точки данных от среднего значения, вы вычитаете среднее значение набора данных из этой конкретной точки.

Теперь, если вы вычислите отклонение каждой точки данных и сложите их вместе, вы получите статистическую меру суммы отклонений.

Вы можете подумать, что если вы разделите общие отклонения на количество имеющихся у вас точек данных, то получите среднее отклонение. Это разумная идея, но, поскольку среднее значение находится в середине набора данных, сумма отклонений всегда равна нулю для любого набора данных. Это важный результат в статистике, потому что отклонения из-за точек, превышающих среднее значение (которые являются положительными), полностью компенсируют отклонения из-за точек, меньших среднего (которые являются отрицательными). Это не поможет вам измерить разброс вашего набора данных, потому что сумма отклонений равна нулю, вы получите нулевой результат, что бесполезно.

Проблема равенства нулю суммы отклонений решается путем возведения отклонений в квадрат. уравнение дается

Дисперсия — это «среднее» суммы квадратов отклонений. Дисперсия рассчитывается путем деления суммы квадратов отклонений на количество точек данных минус один (n-1).

5. Стандартное отклонение. Стандартное отклонение, вероятно, является наиболее часто упоминаемым и важным показателем разброса набора данных. Он тесно связан с дисперсией, поскольку рассчитывается путем извлечения квадратного корня.

Стандартное отклонение обычно обозначается буквой s (иногда sd) и представляет собой квадратный корень выборочной дисперсии, приведенной выше:

Вы также можете сказать, что:

Проблема с дисперсией заключается в том, что из-за возведения в квадрат она не находится в той же единице измерения, что и исходные данные. Допустим, вы имеете дело с набором данных, который содержит значения в сантиметрах. Ваша дисперсия будет выражена в квадратных сантиметрах и, следовательно, не является лучшим измерением.

Вот почему стандартное отклонение используется чаще, потому что оно находится в исходной единице. Это просто квадратный корень из дисперсии, и поэтому он возвращается к исходной единице измерения.

Гаустическая кривая (то, что статистики называют нормальным распределением) обычно рассматривается в статистике как инструмент для понимания стандартного отклонения.

Стандартное отклонение — это статистика, показывающая, насколько плотно все различные точки данных сгруппированы вокруг среднего значения в наборе данных. Когда точки данных довольно плотно сгруппированы, а колоколообразная кривая крутая, стандартное отклонение мало. Когда точки данных разбросаны, а кривая колокола относительно плоская, это говорит о том, что у вас относительно большое стандартное отклонение.

Когда у вас низкое стандартное отклонение, ваши точки данных, как правило, близки к среднему значению. Высокое стандартное отклонение означает, что ваши точки данных разбросаны по широкому диапазону.

При нормальном распределении примерно 34% точек данных лежат между средним значением и одним стандартным отклонением выше или ниже среднего. Поскольку нормальное распределение является симметричным, 68% точек данных попадают между средним значением на одно стандартное отклонение выше и на одно стандартное отклонение ниже среднего. Приблизительно 95% находятся между двумя стандартными отклонениями ниже среднего и двумя стандартными отклонениями выше среднего. И примерно 99,7% находятся между тремя стандартными отклонениями выше и тремя стандартными отклонениями ниже среднего.

С помощью Z-оценки мы узнаем, на каком стандарте мы находимся.

Таким образом, просмотр стандартного отклонения может помочь вам указать правильное направление, когда вы спрашиваете, почему информация такая, какая она есть.

Зависимости

Что такое корреляция и причинно-следственная связь и чем они отличаются?

Две или более переменных считаются связанными в статистическом контексте, если их значения изменяются таким образом, что по мере увеличения или уменьшения значения одной переменной изменяется и значение другой переменной (хотя это может быть и в противоположном направлении).

Например, для двух переменных «отработанное время» и «заработанный доход» существует связь между ними, если увеличение количества отработанных часов связано с увеличением полученного дохода. Если рассматривать две переменные «цена» и «покупательная способность», то по мере увеличения цены товара способность человека покупать эти товары уменьшается (при условии постоянного дохода).

Корреляция – это статистическая мера (выраженная в виде числа), которая описывает размер и направление взаимосвязи между двумя или более переменными. Однако корреляция между переменными не означает автоматически, что изменение одной переменной является причиной изменения значений другой переменной.

Числовое значение коэффициента находится в диапазоне от +1,0 до –1,0, что указывает на силу и направление связи.

Если коэффициент корреляции имеет отрицательное значение (ниже 0), это указывает на отрицательную связь между переменными. Это означает, что при увеличении одного уменьшается другое или при уменьшении одного увеличивается другое.
Если коэффициент корреляции имеет положительное значение (выше 0), это указывает на положительную связь между переменные означают, что обе переменные движутся в тандеме, т. е. когда одна переменная уменьшается, другая также уменьшается, или когда одна переменная увеличивается, другая также увеличивается.

Если коэффициент корреляции равен 0, это означает, что между переменными отсутствует взаимосвязь, т. е. одна переменная может оставаться постоянной, в то время как другая увеличивается или уменьшается.

Причинно-следственная связь указывает на то, что одно событие является результатом возникновения другого события; то есть существует причинно-следственная связь между двумя событиями. Это также называется причиной и следствием.

Теоретически разницу между двумя типами взаимосвязей определить легко: одно действие или явление может вызывать другое (например, курение повышает риск развития рака легких) или оно может коррелировать с другим (например, курение коррелирует с алкоголизмом, но не вызывает алкоголизм). На практике, однако, по-прежнему трудно четко установить причину и следствие, по сравнению с установлением корреляции

Резюме

Этот пост дает вам правильное введение в описательную статистику и ее важность в машинном обучении. Вы узнали, как описывать данные, используя три различных типа средних значений (среднее, мода и медиана), также называемых центральной тенденцией, мерой разброса, т. е. о диапазоне, межквартильном диапазоне, выбросах, дисперсии и стандартном отклонении. Затем вы также узнали о стандартном отклонении и его важности. Наконец, вы узнали о корреляции и причинности, о том, чем они отличаются друг от друга.