Нет ничего более важного, чем понимание данных, которые вы пытаетесь изучить в области данных. Понимание цели анализа имеет решающее значение для понимания данных, поскольку это сэкономит ваше время и даст указания, как следует анализировать данные.

Для проведения анализа вы можете использовать множество различных инструментов, методов и подходов. Можно использовать программные библиотеки, инструменты визуализации и методологии статистического тестирования. В этой статье, с другой стороны, будет представлен обзор одномерного, двумерного и многомерного анализа.

Крайне важно понимать одномерный, двумерный и многомерный статистический анализ, независимо от того, являетесь ли вы аналитиком данных или специалистом по данным.

Сначала мы должны понять различные типы переменных:

  • Переменные с конечным числом категорий или отдельных групп известны как категориальные переменные. Пол, тип оплаты, гороскоп и так далее.
  • Числовые переменные — это те, которые состоят из чисел. Числовые переменные делятся на две категории.
  • Переменные, которые можно перечислить за конечное время, называются дискретными переменными. Например, количество денег в вашем кармане, количество учеников в классе, числовые оценки и так далее.
  • Непрерывные переменные — это переменные с бесконечным числом возможностей, которые обычно измеряются по шкале. Вес, рост, температура, дата и время платежа и так далее.

Однако ее можно заменить на другую переменную для простоты использования, в зависимости от типа переменной. Например, дата и время могут быть разделены на год, месяц и категории времени, такие как продажи в AM и PM. Объединение непрерывных переменных в категории — типичная стратегия работы с ними. Диапазоны настроек, например, могут классифицировать вес человека на «ниже среднего»/«стройный», «средний» и «выше среднего»/«тучный».

Одномерный анализ

Самым простым из трех методов является однофакторный анализ, в котором для анализа данных используется только одна переменная. Люди используют одномерный анализ различными способами. Проверка центральной тенденции переменной (среднего, медианы и моды), диапазона, максимального и минимального значений и стандартного отклонения является наиболее типичным одномерным анализом.

Гистограмма, представляющая собой график частотного распределения, является распространенным визуальным подходом к одномерному анализу. Вы также можете сравнить разброс переменных, используя блочную диаграмму или график скрипки, которые могут выявить выбросы. Использование любого из вышеупомянутых способов для сравнения «длины чашелистиков» в наборе данных по радужной оболочке разных видов является однофакторным анализом, поскольку сравнивается только одна переменная.

Двумерный анализ

Двумерный анализ сравнивает две переменные, чтобы исследовать их корреляции. Эти переменные могут быть взаимозависимыми или независимыми. В двумерном анализе всегда есть значение Y для каждого значения X.

Точечная диаграмма с одной переменной по оси x и другой по оси y является наиболее часто используемым визуальным инструментом для двумерного анализа. Помимо графика рассеяния, для исследования взаимосвязи между переменными широко используются графики регрессии и коэффициенты корреляции. Используя набор данных радужной оболочки в качестве примера, вы можете найти взаимосвязь между «длиной чашелистика» и «шириной чашелистика» или «длиной чашелистика» и «длиной лепестка».

Многомерный анализ

Подобно двумерному анализу, многомерный анализ сравнивает более двух переменных. Вы можете создать трехмерную модель для изучения связи между тремя факторами (также известная как трехмерный анализ). Однако, поскольку мы не можем видеть ничего за пределами третьего измерения, нам приходится полагаться на другие инструменты и методологии, чтобы понять отношения данных.

Что касается визуализации, библиотека Python Seaborn поддерживает парные графики, которые создают одну огромную диаграмму, в которой выбранные переменные сопоставляются друг с другом в последовательности точечных диаграмм и гистограмм на основе типа переменной, также известной как матрица точечной диаграммы.

Другие методы, такие как анализ основных компонентов или логистическая регрессия, линейная регрессия, кластерный анализ и т. д., могут использоваться в зависимости от набора данных и необходимой глубины анализа.