Очень удобный инструмент для исследовательского анализа данных

Методы визуализации данных очень полезны для изучения набора данных. В экосистеме науки о данных используется широкий спектр типов визуализации. Что лучше всего подходит для данной задачи, зависит от характеристик данных и переменных.

В этой статье мы рассмотрим интерактивный инструмент визуализации, созданный Facebook. По сути, это график с параллельными координатами. Таким образом, каждая строка (то есть точка данных) представлена ​​линией. Координаты в строке - это переменные (т.е. столбцы).

График с параллельными координатами обеспечивает графическое представление возможных групп (или кластеров) в наборе данных. Они также выявляют определенные закономерности, которые могут помочь различать точки данных.

График с параллельными координатами также является удобным способом исследования многомерных данных, для которых традиционные методы визуализации могут не обеспечить достойного решения.

Facebook создал HiPlot для гиперпараметрической настройки нейронных сетей. Однако мы можем реализовать его практически на любом наборе данных. Конечная цель одна и та же: хорошо изучить данные. Мы будем использовать знаменитый набор данных радужной оболочки глаза, чтобы продемонстрировать, как используется HiPlot.

Первым делом установите HiPlot. Документация дает подробное объяснение того, как установить его в различных средах. Я использую pip для его установки.

pip install -U hiplot

Теперь мы можем импортировать все зависимости и прочитать набор данных в фреймворк pandas.

import hiplot as hip
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris(as_frame=True)['frame']
iris.head()

Создать интерактивную визуализацию с помощью Hiplot чрезвычайно просто. Следующая строка кода создаст то, что мы будем экспериментировать на протяжении всей статьи.

hip.Experiment.from_dataframe(iris).display()

Hiplot также принимает итерируемые данные (например, словарь) в качестве входных данных. В таких случаях мы используем функцию from_iterable вместо функции from_dataframe.

Вот скриншот созданного сюжета. Мы замечаем некоторые закономерности, просто глядя на них.

Набор данных iris содержит 4 независимые переменные и целевую переменную. Цель принимает одно из трех значений в зависимости от значений независимых переменных.

Что делает Hiplot исключительным, так это интерактивный интерфейс. Например, мы можем выбрать диапазон значений для любой из переменных на графике.

Мы выбираем диапазон значений в столбце ширины лепестка. Отображаются только точки данных, ширина лепестков которых находится в выбранном диапазоне. Сразу заметим, что выбранный диапазон отличается целевым значением 0.

Можно выбрать диапазон значений для нескольких столбцов, чтобы мы могли создавать более конкретные шаблоны.

Мы также можем выбрать значение из целевой переменной и увидеть образец точек данных, принадлежащих этому классу.

Hiplot позволяет переставлять столбцы на графике. Например, мы можем переместить целевую переменную и поместить ее в крайнее левое положение. Эта функция пригодится, если вы хотите поместить категориальную переменную с одной стороны, а числовые переменные - с другой.

Hiplot также создает таблицу как часть интерактивного интерфейса. Мы можем использовать эту таблицу для выбора точек данных и просмотра их на графике.

Заключение

Мы рассмотрели простой случай, чтобы продемонстрировать, как Hiplot можно использовать для исследовательского анализа данных.

По мере увеличения размерности данных (т. Е. Большого количества столбцов) становится все труднее использовать визуализацию данных для исследования данных. В таких случаях Hiplot служит удобным инструментом.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.