Методы многомерного анализа для изучения данных

Большинство проблем в мире, с которыми мы сталкиваемся, имеют множество переменных. Чтобы проанализировать эти переменные, прежде чем их можно будет передать в систему машинного обучения, нам необходимо аналитически изучить данные. Быстрый и простой способ сделать это — двумерный анализ, при котором мы просто сравниваем две переменные друг с другом. Это может быть в виде простых двумерных графиков и t-тестов.

Однако сравнение только двух переменных одновременно не дает глубокого понимания природы переменных и того, как они взаимодействуют друг с другом. Именно здесь возникает необходимость понимать и применять методы многомерного анализа.

НАСА запустило марсоход Кьюриосити, который будет исследовать богатую минералами область кратера Гейла на Марсе. Ключом к анализу химического состава горных пород и почвы является использование спектроскопии лазерного пробоя (LIBS). Данные LIBS, содержащие более 6000 переменных на выборку, очень многомерны.

Теперь мы подробно рассмотрим некоторые из этих методов.

Множественный регрессионный анализ

Регрессия — один из самых простых, но мощных методов анализа данных. В то время как простая регрессия отображает одну переменную как функцию другой, множественная регрессия отображает одну переменную (называемую зависимой переменной) как функцию нескольких других переменных (называемых независимыми переменными или предикторами). Выполнение такого анализа дает нам уравнение вида

гдеα – точка пересечения,βi – коэффициенты, y— зависимая переменная, аxi— предикторы. Это уравнение можно прочитать так: при увеличении xi на единицу значениеyувеличивается на βi единиц. . Таким образом, это уравнение показывает, как поведение зависимой переменной изменяется по отношению к другим переменным.

Логистический регрессионный анализ

Это похоже на множественную линейную регрессию с той разницей, что вместо предсказания абсолютных значений определенной метрики мы вычисляем вероятность возникновения бинарного события. Таким образом, он используется, когда мы ожидаем бинарного результата, такого как хорошо/плохо или да/нет. Итак, если мы хотим предсказать объем продаж в результате маркетинговой кампании, подходящим методом будет метод множественной регрессии; тогда как, если мы хотим предсказать вероятность того, что клиент станет просроченным, логистическая регрессия будет более подходящей. Эта вероятность или вероятность определяется формулой:

гдеe — число Эйлера или показатель степени, а значения других символов остаются прежними.

Дискриминантный анализ

Это используется для классификации двух или более групп данных и их различения. Лучше всего использовать этот метод, когда зависимая переменная является категориальной, а независимые переменные являются метрическими. Дискриминантный анализ развивает дискриминантные функции, которые представляют собой линейные комбинации независимых переменных. Эти функции помогают различать категории в зависимой переменной. Они позволяют аналитику быстро оценить, являются ли различия между группами значительными.

Например, это может помочь различать больших, умеренных и низких трат в зависимости от таких атрибутов клиента, как возраст, пол, доход и т. д.

MANOVA (многомерный дисперсионный анализ)

Этот метод лучше всего подходит для использования, когда у нас есть несколько категориальных независимых переменных; и две или более переменных, зависящих от метрики. В то время как простой ANOVA (дисперсионный анализ) исследует разницу между группами, используя t-критерий для двух средних и F-критерий в противном случае, MANOVA оценивает взаимосвязь между набором зависимых признаков в наборе групп. Например, этот метод подходит, когда мы хотим сравнить два или более блюда в ресторане друг против друга с точки зрения уровня остроты, времени, затрачиваемого на приготовление, соотношения цены и качества и т. д.

Анализ главных компонентов и факторный анализ

Хотя машинное обучение — это игра по предсказанию результата с учетом нескольких предикторов, могут быть случаи, когда количество этих предикторов слишком велико. Мало того, что такой набор данных трудно анализировать, модели, построенные на его основе, подвержены переобучению. Поэтому имеет смысл уменьшить количество этих переменных. Анализ главных компонентов (PCA) и факторный анализ являются двумя распространенными методами, используемыми для выполнения такого уменьшения размерности. PCA уменьшает существующее количество переменных, так что новый набор сокращенных переменных охватывает большую часть общей дисперсии, присутствующей в существующем наборе переменных, и представляет собой метод, применяемый к мультиспектральным и бортовым гиперспектральным данным дистанционного зондирования.

Таким образом, PCA является таким мощным инструментом для аналитиков, поскольку теперь они имеют гораздо меньший набор функций, и в то же время сохранили большую часть информации, которая была изначально представлена. В то время как PCA извлекает факторы на основе общей дисперсии, метод факторного анализа извлекает факторы на основе дисперсии, разделяемой факторами. Предоставляя факторы на основе общей дисперсии, факторный анализ позволяет специалистам по данным изучать основные тенденции в данных.

Кластерный анализ

Во многих бизнес-сценариях данные принадлежат множеству различных типов сущностей; и включение их всех в одну модель может быть не лучшим выходом. Например, в наборе банковских данных клиенты могут принадлежать к нескольким группам доходов, что приводит к различному поведению в отношении расходов. Если мы используем данные всех этих клиентов в одной модели, мы будем сравнивать яблоки с апельсинами. В этом отношении кластеризация предоставляет аналитикам хороший способ сегментировать свои данные и, следовательно, избежать этой проблемы. Кластеризация K-средних — хорошо известный подход, используемый многими аналитиками данных и учеными. Это разделяет точки данных на кластеры таким образом, чтобы расстояния между кластерами были максимальными. Это означает, что каждая точка в конкретном кластере похожа на любую другую точку в этом кластере; и точки в конкретном кластере сильно отличаются от всех точек в любом другом кластере. Другие популярные подходы к кластеризации включают алгоритм иерархической кластеризации, алгоритм DBSCAN, алгоритм Partitioning Around Medoids (PAM) и т. д.

Совместный анализ

Совместный анализ, также известный как анализ компромиссов, является очень важным инструментом, используемым в маркетинге. Это помогает определить, нравятся ли клиентам различные атрибуты продукта/услуги или нет. Это также помогает определить предпочтение клиентов к определенной функции по сравнению с другими. Компании, производящие смартфоны, часто используют этот анализ, чтобы понять комбинацию атрибутов, таких как функции, цвет, цена, размеры и т. д., которые предпочитают клиенты. Они используют результаты такого анализа в своих стратегиях повышения прибыльности.

Попарные графики

Иногда становится сложно визуализировать многомерные данные на одном экране компьютера. Вот тут-то и появляются парные графики. Как показано на рисунке ниже, это позволяет аналитикам просматривать все комбинации переменных, каждую на двумерном графике. Таким образом, они могут визуализировать все отношения и взаимодействия между переменными на одном экране.

Корреляционный анализ

Часто наборы данных содержат переменные, которые либо связаны друг с другом, либо получены друг из друга. В статистических терминах корреляцию можно определить как степень линейной связи пары переменных. В некоторых случаях аналитику легко понять, что переменные связаны, но в большинстве случаев это не так. Таким образом, выполнение корреляционного анализа очень важно при изучении любых данных. Кроме того, подача данных, в которых переменные коррелируют друг с другом, не является хорошей статистической практикой, поскольку мы придаем множественный вес одному и тому же типу данных. Для предотвращения таких проблем необходим корреляционный анализ.

На рисунке ниже показана тепловая карта корреляции для некоторых гипотетических данных. Шкалы представляют степень корреляции, которую имеют переменные. Корреляция +1 между двумя переменными означает, что если одна из переменных увеличивается, другая переменная также увеличивается в том же отношении. Корреляция -1 аналогична, с той разницей, что увеличение одной переменной влечет за собой уменьшение другой в том же отношении.

Сюжеты пауков

Хотя существуют различные способы визуализации многомерных данных, паутинные графики — один из самых простых способов расшифровать значение данных. На рисунке ниже видно, как легко мы можем сравнить три мобильных телефона на основе таких атрибутов, как их скорость, экран, камера, память и приложения.

Подводя итог, мы отобрали лучшие методы многомерного анализа, используемые в отрасли науки о данных. Неудивительно, что анализ и обработка данных составляют большую часть работы по разработке модели машинного обучения. В связи с этим методы, описанные в этой статье, являются справочным материалом для всех аналитиков данных, инженеров и ученых. Кроме того, чтобы понять, как управлять многомерными моделями с помощью A/B-тестирования для оперативного вывода и пакетных задач, посетите Datatron.

Ссылки:
https://www.camo.com/resources/casestudies/mars_rover_camo.pdf
https://www.mdpi.com/2072-4292/ 23.11.2800
https://software.nasa.gov/NASA_Software_Catalog_2019-20.pdf

Первоначально опубликовано на https://blog.datatron.com 16 апреля 2020 г. Автор Викас Савант.