Bamboolib — это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа и преобразования данных без кода в записных книжках Jupyter, в том числе в Azure Databricks. Это позволяет пользователям легче и быстрее работать со своими данными без необходимости написания кода. Bamboolib генерирует код Python в фоновом режиме по мере того, как пользователи выполняют задачи, которыми можно поделиться с другими для быстрого воспроизведения задач или расширить опытные программисты для получения более сложных результатов. Bamboolib предназначен для упрощения общих задач обработки, исследования и визуализации данных и может использоваться как новичками, так и опытными аналитиками данных.

Установка в Anaconda очень проста:

Откройте терминал anaconda и выполните приведенные ниже команды.

Протестируйте Bamboolib на ноутбуке Jupyter

  1. Запустить блокнот Jupyter
  2. импортируйте bamboolib в блокнот Python с помощью следующей команды:

импортировать bamboolib как bam

Когда пользователь нажимает кнопку «Показать бамбуковый пользовательский интерфейс», отображается всеобъемлющий пользовательский интерфейс, который позволяет пользователю взаимодействовать с фреймом данных Pandas. Вы можете прокручивать, чтобы просмотреть все столбцы, или вверх и вниз, чтобы просмотреть строки, используя полосы прокрутки.

Как мы видим, интерфейс GUI отображает три варианта

1. Исследуйте DataFrame

2. Поисковые действия

3. Создать сюжет

Исследование данных:

Параметр «Исследовать фрейм данных» в пользовательском интерфейсе Bamboolib упрощает выполнение исследовательского анализа данных (EDA). Инструмент Explore DataFrame состоит из следующих вкладок.

Краткий обзор. Предоставляет подробные сведения о наборе данных, такие как имена столбцов, типы данных, уникальные значения, отсутствующие значения и форма фрейма данных, которая составляет 891 * 12.

Шаблоны предикторов: отображает тепловую карту, которая предсказывает взаимосвязь между столбцами по оси X и оси Y. Щелкните любую ячейку, чтобы узнать больше о корреляции между любыми двумя столбцами.

Например, столбец «пол» выбран на оси X, а столбец «выжил» — на оси Y.

Матрица корреляции. Отображает корреляцию между столбцами.

Действия при поиске:

Параметр преобразования позволяет нам выбирать из ряда преобразований, включая фильтры, сортировку, группировку и т. д., которые будут применяться к нашему набору данных. Благодаря широкому спектру доступных операций преобразование можно использовать для управления нашими данными.

Давайте рассмотрим несколько модификаций, которые мы можем сделать.

Выбрать столбцы: нажав на действия поиска и выбрав выбрать или удалить столбцы, вы можете отфильтровать набор данных, чтобы увидеть только определенные столбцы. Еще одно всплывающее окно появится справа, позволяя пользователю нажать выбрать или удалить и использовать раскрывающийся список столбцов для фильтрации столбцов.

После выбора «Выбрать» и выбора столбцов нажмите «Выполнить».

Мы видим, что набор данных теперь состоит из 891 строки и 10 столбцов.

Если в любое время вы хотите перейти к исходному набору данных, нажмите кнопку отмены

Удалить столбцы:часто в DataFrame будут столбцы, которые бесполезны для вашего анализа. Мы видим, что столбец кабины в нашем фрейме данных имеет больше всего отсутствующих значений, поэтому предпочтительнее удалить его, используя метод перетаскивания столбцов.

Мы видим, что фрейм данных теперь имеет 891 строку и 11 столбцов после удаления столбца кабины.

Фильтр. С помощью этой опции мы можем анализировать набор данных, добавляя определенные условия. Например, анализ количества пассажиров, возраст которых меньше или равен 15 годам, может быть проведен, как показано ниже.

Хорошо видно, что на Титанике было 83 ребенка.

Мы можем дополнительно проанализировать эти данные, чтобы определить распределение детей по полу, как показано ниже.

Сортировка. Этот параметр позволяет сортировать набор данных на основе одного или нескольких столбцов. Например, в наборе данных ниже вы хотите отобразить строки с именами в алфавитном порядке от А до Я.

Группировать по: этот параметр позволяет разделить данные на отдельные группы для выполнения вычислений для лучшего анализа одного или нескольких столбцов.

Например, вы можете использовать функцию группировки по столбцу «Пол», чтобы определить количество для каждого пола.

Мы также можем сгруппировать по «полу» и рассчитать среднее значение выживших, Pclass, Age, Sib Sp, Parch.

Удалить отсутствующие значения. Этот параметр удаляет строки для выбранного столбца с отсутствующими значениями.

В нашем наборе данных у нас есть столбец «Возраст», в котором есть 177 пропущенных значений, давайте отбросим все строки, в которых есть пропущенные значения.

Создать график. Вы можете создавать круговые диаграммы, точечные диаграммы, гистограммы, гистограммы, ящичные диаграммы и многое другое с помощью параметра "Создать график".

Гистограмма:

Круговая диаграмма:

График разброса:

Коробка Сюжет: