Введение в исследовательскую версию 5.1!

Параметризованная панель инструментов, новые диаграммы, новая аналитика и многое другое!

Я очень рад анонсировать Exploratory v5.1! 🎉🎉🎉

Я имею в виду наконец-то!

Мы работали над этим релизом последние 5 месяцев! Изначально мы планировали выпустить его в январе, но отменили, хотя у нас было много пользователей, уже использующих бета-версию v5.1.

Так что случилось?

Что ж, мы поняли, что у нас есть две основные проблемы.

Один был о параметре. Это самая большая новая функция v5.1 и одна из наиболее востребованных нашими пользователями функций. Но качество оказалось не таким высоким, как хотелось бы. Поэтому мы хотели потратить больше времени на то, чтобы сделать Parameter более простым в использовании, более быстрым и стабильным.

Другая проблема заключалась в том, что мы не решали некоторые из критических проблем, с которыми сталкивались наши пользователи и студенты (да, мы преподаем науку о данных!), Когда они хотели использовать инструменты статистики и машинного обучения для более глубокого понимания своих данных. Поэтому мы хотели предложить отличные решения для их решения, улучшив графики и аналитику.

Сказав это, я думаю, у нас есть что-то действительно замечательное.

Темы v5.1

Есть две основные темы.

Один из них - сделать ваши панели мониторинга, заметки, слайды и диаграммы интерактивными, чтобы члены вашей команды могли взаимодействовать с ними и динамически обновлять данные. Мы называем это Параметр.

Другой - сделать работу с исследовательским анализом данных более простой и эффективной с помощью новых типов диаграмм, таких как График скрипки, Матрица разброса, График плотности и Облако слов, а также новые возможности аналитики, такие как Boruta для случайного леса, относительная важность для линейной регрессии, маржинальный Эффект для логистической регрессии и т. Д.

И, конечно же, есть много других новых функций и улучшений в других областях, таких как Data Source, Data Wrangling и т. Д.

Как всегда, есть масса новых интересных функций.

Давайте взглянем на некоторые из них, на которые стоит обратить внимание.

Параметр

Параметр делает вашу панель инструментов, заметки, слайды, диаграммы и данные интерактивными, чтобы другие люди могли взаимодействовать с ними для обновления данных.

С помощью Parameter вы можете динамически обновлять этапы обработки данных и запросы данных (SQL, MongoDB, Custom R Script) на основе вводимых пользователем данных.

Вы можете не только взаимодействовать с Dashboard и другими внутри рабочего стола Exploratory Desktop, но также можете взаимодействовать с ними на сервере (exploratory.io или Exploratory Collaboration Server) после их публикации.

Чтобы использовать параметр, вы должны сначала создать его. 😉

Мы создали новый пользовательский интерфейс для настройки параметров.

Настроить параметры

Вы можете создавать различные типы параметров. Например, вы можете захотеть показать список значений параметра, из которого вы или ваша аудитория можете выбирать. Или вы можете показать ползунок, с помощью которого вы или ваша аудитория можете установить числовое значение. Если вас интересуют подробности, у нас есть отдельная заметка.

После того, как вы создали свои параметры, вы хотите параметризовать шаги источника данных или Data Wrangling.

Вот несколько примеров того, что вы можете параметризовать.

Параметризованные SQL-запросы

Вы можете сделать свой SQL-запрос динамически генерируемым на основе вводимых пользователем данных.

После того, как вы настроили свои SQL-запросы с параметрами, вы можете просто обновить значения параметров из Parameter UI Pane, которая, например, автоматически обновит запросы и вернет обновленные данные в диаграмму.

Параметризованный источник данных скрипта R

Вы можете сделать так, чтобы ваш R-скрипт динамически генерировался на основе вводимых пользователем данных.

Этот сценарий R использует пакет R tidyquant для получения данных о ценах на акции. Я делаю символ акции и диапазон дат, которые будут параметризованы, чтобы я мог изменять эти значения на панели пользовательского интерфейса параметров, глядя на диаграмму.

Параметризованный запрос MongoDB

Вы можете сделать свой запрос MongoDB параметризованным.

То же самое. теперь вы можете взаимодействовать с MongoDB, просто обновляя значения параметров, глядя на диаграмму или панель управления.

Шаги обработки параметризованных данных

Конечно, вы также можете параметризовать шаги обработки данных!

Вот несколько примеров.

Параметризация вычислений (изменение)

Параметризация фильтра

Это, наверное, самый распространенный сценарий. Вы можете просто щелкнуть переключатель «Параметр» и выбрать параметр, который хотите использовать.

Параметризация команды R

Самое интересное в Exploratory заключается в том, что вы можете напрямую вводить команды R, если они принимают фрейм данных в качестве входных и возвращают фрейм данных в качестве выходных.

И вы также можете параметризовать команды R!

После того, как вы параметризовали свой источник данных или этапы обработки данных, пора с ними взаимодействовать!

Сделайте панель мониторинга интерактивной с параметрами

Круто то, что вам не нужно ничего делать, чтобы использовать параметры на панели инструментов. Любые параметры, которые используются в базовых данных для вашей панели мониторинга, будут автоматически отображаться на панели параметров пользовательского интерфейса панели мониторинга.

Наш механизм обработки данных автоматически определяет, какие параметры следует использовать для генерации данных приборной панели. Просто работает!

И, конечно же, вы можете сделать свои заметки и слайды интерактивными с помощью Parameter!

Теперь вы можете, например, создать только одну версию панели мониторинга, а затем поделиться ею с другими, которые могут захотеть увидеть разные части данных. Они могут просто изменить значения параметров, чтобы повторно запустить приборную панель!

Я написал отдельную заметку, чтобы осветить более подробную информацию о том, как создавать и использовать Parameter в Exploratory, посмотрите!

  • Введение в параметр в исследовательском режиме - Ссылка

Теперь давайте посмотрим на другие новые функции в разделах «Диаграмма», «Аналитика», «Обработка данных» и «Источник данных».

Диаграмма

Мы представили 4 новых типа диаграмм и несколько интересных улучшений существующих диаграмм для версии 5.1.

Сюжет для скрипки

График скрипки в основном объединяет график плотности и коробчатый график. Он визуализирует, как распределяются данные, и помогает лучше сравнивать распределение между категориями.

У вас есть возможность отобразить коробчатую диаграмму внутри формы скрипки и показать точки (исходные точки данных) рядом со скрипкой.

Матрица разброса

Наконец-то в доме появилась матрица разброса!

Эта диаграмма доступна в разделе "Корреляционный анализ" представления Google Analytics. Это сделает более интуитивным понимание корреляции между любой данной парой числовых переменных.

График плотности

Мы часто используем гистограмму для визуализации распределения числовых переменных, но иногда это бесполезно.

Например, чтобы сравнить распределение данных между несколькими категориями, мы можем использовать Color. Но это часто заканчивается размещением нескольких гистограмм друг над другом, что затрудняет понимание разницы, как показано ниже.

Это показывает возрастное распределение матерей, родивших ребенка по расе матери. Все, что мы видим, это большая красная гистограмма (Белая Мать). Внутри есть еще одна гистограмма, но мы не знаем, что именно, и не можем видеть других.

Есть две проблемы. Во-первых, разные цвета накладываются друг на друга. Другой заключается в том, что есть некоторые группы (категории), которые имеют очень маленькие значения по сравнению с другими.

Вот когда пригодится график плотности. Здесь я только что изменил его с гистограммы на график плотности. Теперь мы видим, что матери из Китая (оранжевые) и японские (зеленые), как правило, старше других групп, в то время как черные (синие) матери обычно моложе.

В диалоговом окне свойств вы можете настроить алгоритм построения графика, называемый «сглаживание ядра», который оценивает плотность распределения данных.

Облако слов

Мы добавили диаграмму «Облако слов» в раздел «Диаграмма».

Это помогает визуализировать результат анализа текста более увлекательно.

Вот как я визуализировал текст твита Илона Маска на основе количества появлений после удаления стоп-слов (общих слов).

Чем больше размер, тем чаще они появляются в его твитах.

Чтобы использовать его, вы хотите сначала токенизировать твиты. Вы можете сделать это, выбрав,

Работа с текстом - ›Токенизация текста

из меню заголовка столбца.

Если вы хотите узнать больше об анализе текста в Exploratory, я уже писал серию сообщений в блоге раньше, загляните, если вам интересно.

Тепловая карта с повторением по

Мы добавили поддержку «Повторить до» для диаграммы Heatmap! Вы сможете увидеть несколько диаграмм тепловых карт для нескольких категорий.

Поддержка URL-ссылок для сводной таблицы / таблицы

Теперь вы можете установить URL-ссылку для текста внутри сводной таблицы и таблицы. Это полезно, когда вы хотите поделиться своей информационной панелью со сводной таблицей или таблицей и попросить аудиторию щелкнуть определенную точку данных, чтобы открыть связанную веб-страницу.

Сводная таблица

Таблица

Эти URL-ссылки могут быть динамическими с использованием значений столбцов.

Я написал отдельный пост, чтобы подробнее рассказать об этой функции.

  • Как добавить URL-ссылку к значениям в сводной таблице / таблице? - "Ссылка"

Исключить поддержку выбросов

* Диаграмма: поддержка «Включить выброс» в диаграммы гистограммы / разброса / скрипки / плотности.

Экспорт изображения с цветным фоном

Теперь вы можете экспортировать свои диаграммы с непрозрачным фоном. Также вы можете установить размер (высоту и ширину) экспортируемых изображений.

Поддержка группы "Другие"

Когда вы назначаете переменную (столбец) со многими уникальными значениями для параметра «Цвет» или «Повторять по», диаграмму становится трудно читать. Вот почему существует поддержка группы «Другие», что позволяет реже группировать ценности в группе «Другие».

Раньше этот параметр был доступен только для нескольких диаграмм, но теперь мы расширяем поддержку для других типов диаграмм, таких как Map, Scatter, Bubble и т. Д.

Аналитика

В представлении Analytics есть несколько, но очень интересных и полезных новых функций.

Случайный лес с Борутой

Есть две проблемы, чтобы интерпретировать результат «переменной важности» случайного леса.

Во-первых, результат может меняться каждый раз при запуске из-за «случайности» выборки данных, используемых для построения модели.

Во-вторых, вы не знаете, какие переменные действительно значимы, а какие не используются для прогнозирования результата.

Существует метод под названием Boruta, который помогает решить эти две проблемы.

С помощью Boruta вы можете видеть оценки важности переменных в виде распределения, прямоугольной диаграммы, а не столбца, а также видеть переменные разными цветами в зависимости от того, насколько они важны для прогнозирования целевой переменной.

По умолчанию он отключен, потому что это замедляет построение модели, но вы можете легко включить его из свойства.

Переменная важность для линейной регрессии

Когда мы строим модели линейной регрессии и смотрим на коэффициенты, вам не нужно сравнивать коэффициенты между переменными. Это потому, что единицы измерения каждой переменной разные. Например, количество заказа, возраст, вес и тип работы находятся в совершенно разных единицах и масштабах.

Но мы не можем перестать пытаться это сделать, потому что, по сути, это то, что мы действительно хотим знать! ;)

Что ж, есть метод под названием «Относительная важность», который может помочь вам ответить на вопрос, какие переменные больше влияют на целевую переменную. И мы добавили поддержку для отображения этого показателя в линейной регрессии представления Google Analytics.

По сути, он дает оценку каждой переменной в зависимости от того, какой вклад она вносит в общий R-квадрат.

Вы можете включить это в отеле.

Предельный эффект для логистической регрессии

Логистическая регрессия - очень полезный алгоритм, но интерпретировать результат немного сложно. В особенности, когда вы пытаетесь объяснить коэффициент или отношение шансов каждой переменной другим людям, не имеющим статистической подготовки, удачи в этом.

Оказалось, что мы не единственные, кто борется с этими показателями. Специалисты в области экономики и политологии уже давно используют так называемый маржинальный эффект (или средний маржинальный эффект), который предлагает более интуитивный способ интерпретации эффекта каждой переменной.

На приведенной выше диаграмме показан средний маржинальный эффект для каждой из переменных-предикторов. Мы можем интерпретировать это так: «если мы увидим увеличение данного предиктора на один пункт, вероятность того, что целевая переменная станет ИСТИННОЙ, увеличивается на N процентов».

Да, это намного более интуитивно понятно!

По умолчанию по-прежнему используется отношение шансов, но вы можете переключиться на использование среднего маржинального эффекта из свойства.

GLM

Мы добавили GLM в представление Analytics!

Логистическая регрессия уже была в представлении Аналитики, но на этот раз мы приглашаем остальных членов семьи!

Корреляция

Корреляционный анализ имеет два больших усовершенствования.

Поддержка группы по

Теперь вы можете создать матрицу корреляции для каждой из интересующих вас групп. Например, вы можете захотеть увидеть, какие переменные коррелируют в каждом регионе.

Матрица разброса

Как упоминалось в разделе «Диаграмма» выше, мы добавили матрицу разброса в раздел «Корреляционный анализ». Это визуализирует корреляцию каждой пары переменных. Это очень полезно, когда вы используете его вместе с указанной выше корреляционной матрицей.

Корректировка несбалансированных данных с помощью алгоритма SMOTE

Когда вы строите модели бинарной классификации для предсказания ИСТИНА или ЛОЖЬ, вы часто получаете что-то вроде этого.

В этом случае модель предсказывает ЛОЖЬ гораздо больше раз, чем ИСТИНА. И если вы присмотритесь, кажется, что это не очень хорошо для предсказания ИСТИНА, когда фактическое значение ИСТИНА.

Таким образом, похоже, что с ошибкой Type2 есть какая-то проблема, поэтому отзыв не очень хорош.

Это часто случается, когда у вас "несбалансированные" данные, что означает, что соотношение ИСТИНА и ЛОЖЬ очень асимметрично. В столбце is_premature у этих данных около 88% ЛОЖЬ и 12% ИСТИНА.

Чтобы решить эту проблему, вы можете выполнить недостаточную выборку, то есть уменьшить большую часть данных с помощью выборки, и выполнить передискретизацию, то есть увеличить размер данных меньшинства путем их синтеза. Эта техника называется SMOTE (Техника передискретизации синтетических меньшинств).

Мы поддержали эту функцию в представлении Analytics, а также этап обработки данных. В версии 5.1 мы реорганизовали пользовательский интерфейс, чтобы настроить способ балансировки несбалансированных данных.

Теперь все, что вам нужно сказать, это каково соотношение данных меньшинства (например, 50%) и каков максимальный процент увеличения данных меньшинства.

После корректировки модель предсказывает ИСТИНА и ЛОЖЬ гораздо более сбалансированным образом.

Обработка значений NA для прогнозирования временных рядов и обнаружения аномалий

Прогнозирование временных рядов с помощью Prophet и Anomaly Detection получило лучшую поддержку обработки NA (Missing Value). Есть несколько вариантов, таких как:

  • Заполнить предыдущим значением
  • Заполнить 0
  • Линейная интерполяция
  • Сплайн-интерполяция

Прогнозирование временных рядов с помощью Prophet

Обнаружение аномалий

Преодоление данных

Ответвление (кадр данных) корневой коммутатор

Фрейм данных ветви - это уникальная и сильная функция в Exploratory, с помощью которой вы можете сохранить общие этапы обработки данных в основном фрейме данных, а затем создать несколько фреймов данных «ветви» для различных этапов обработки и анализа данных.

Однако проблема заключалась в том, что иногда вы могли захотеть изменить шаг корня ветки после его создания.

Что ж, вы сможете это сделать в версии 5.1!

Переключатель источника данных

Допустим, вы начали анализ данных с данных CSV и добавили кучу шагов обработки данных и кучу диаграмм.

Позже вы понимаете, что хотите переключить источник данных, скажем, на базу данных PostgreSQL, сохранив при этом все этапы обработки данных и диаграммы такими, какие они есть.

Вы можете сделать это сейчас, выбрав «Переключить источник данных» в пошаговом меню шага «Источник данных»!

Присоединиться к диалогу

«Присоединиться» в Исследовательском (и в R) означает объединение двух фреймов данных путем добавления столбцов. И мы улучшили эту область, переработав интерфейс диалогового окна присоединения и способ отображения результата, а также поддержав режим без учета регистра (верхний / нижний регистр).

Изменение дизайна диалога соединения

Одна вещь, которую вы заметите в новом пользовательском интерфейсе диалогового окна присоединения, заключается в том, что теперь есть две цветные полосы в верхней части «Текущий фрейм данных» и «Целевой фрейм данных».

После запуска команды «Объединить» новые столбцы, перенесенные из целевого фрейма данных, будут иметь оранжевые цветные полосы в верхней части заголовков столбцов.

Режим без учета регистра

Иногда значения в столбцах ключей соединения могут не совпадать из-за несогласованности случаев.

Например, «Калифорния» и «Калифорния» не совпадают.

Вы можете исправить исходные данные, например, преобразовав их в регистр заголовков, но иногда это бывает немного громоздко.

Итак, мы добавили поддержку «присоединения без учета регистра» в версии 5.1. Вы можете просто включить режим в диалоговом окне «Присоединение», после чего он выполнит преобразование данных, необходимое для того, чтобы соединение работало должным образом.

Фильтр с функциями суммирования (агрегирования)

Иногда вам может потребоваться отфильтровать данные, используя результат суммирующих функций, таких как среднее, медианное, минимальное, максимальное и т. Д.

Например, вот данные о задержке рейса, и вы хотите сохранить только те рейсы, время вылета которых превышает среднее значение для всех рейсов.

Теперь вы можете щелкнуть переключатель «Суммировать» и выбрать функцию «среднее (среднее)» из раскрывающегося списка, а затем выбрать имя столбца, в данном случае «DEP_DELAY».

Вы увидите только те рейсы, которые соответствуют этому условию.

Группировать по

Если вы хотите, чтобы этот расчет «среднего (среднего)» выполнялся для каждого перевозчика (авиакомпании), вы можете сначала выполнить групповой шаг. Фрейм данных будет сгруппирован по поставщику услуг, и для каждой группы будет выполнена следующая операция «Суммировать».

На приведенной ниже диаграмме вы можете увидеть, что каждая ветвь коробки начинается с разного значения, которое представляет собой среднее значение задержки отправления для каждого перевозчика.

Список функций - лучший поиск

Существует множество функций R, которые доступны для использования прямо из коробки в Exploratory. Вы можете найти список таких функций в окне «Список функций», которое можно открыть, щелкнув текст «Список функций» в диалоговых окнах «Преобразование», «Фильтр» (в разделе «Пользовательский») и «Суммировать» (во вкладке «Пользовательский»).

В верхней части списка функций есть поле поиска, но оно используется для простой фильтрации функций на основе соответствия имени функции.

Теперь он выполняет поиск по всему справочному документу и перечисляет функции, справочные документы которых соответствуют введенному тексту.

Приведенный выше пример показывает, что когда я пытаюсь найти функцию для объединения нескольких текстов, набирая «Conc», она возвращает такие функции, как «str_c», «list_to_text».

Источник данных

Поддержка AWS S3 Athena

С помощью Athena вы можете писать SQL-запросы для извлечения данных из файлов, хранящихся на S3.

Конечно, вы также можете использовать Parameter как часть SQL-запросов!

Поддержка Teradata

Мы также добавили встроенную поддержку Teradata!

  • Источник данных: поддержка переключения учетной записи для источников данных OAuth (Google Sheet, Google Analytics, Google BigQuery, Stripe, MailChimp, Twitter Search)

Другие

Стоит отметить и другие улучшения.

Установка пакета R

Теперь вы можете установить их внутри проектов. Так что больше не нужно выходить из проекта и устанавливать их на странице списка проектов, а затем возвращаться, чтобы открыть проект. 💪

Установка

Установщик Windows

Мы устранили множество проблем, связанных с установкой Exploratory.

Одним из важных моментов является появление нового установщика для Windows. Вы загружаете, дважды щелкаете, затем диалоговое окно установки поможет вам установить Exploratory в нужное место.

Да, у вас будет меню программных файлов для Exploratory!

Пользовательское расположение репозитория

Теперь вы можете выбрать, где вы хотите разместить репозиторий Exploratory, в котором будут храниться все ваши проекты и данные.

Это может быть полезно, если в вашем домашнем каталоге недостаточно места для хранения или вы используете службу синхронизации файлов, например Dropbox, и хотите переместить репозиторий в папку Dropbox.

На этом все новые функции v5.1!

У нас все еще есть много других улучшений и исправлений ошибок, обязательно ознакомьтесь с полным списком в примечании к выпуску.

Happy Exploratory v5.1! 🍾

Ваше здоровье,

Кан

Попробуйте Exploratory v5.1!

Обязательно загрузите v5.1 с нашей страницы загрузки, чтобы начать знакомство с ней сегодня!

Если у вас еще нет исследовательского аккаунта, зарегистрируйтесь на нашем сайте и получите 30-дневную бесплатную пробную версию без кредитной карты!



Если вы в настоящее время являетесь учеником или учителем в школе, это бесплатно!

Хотите попробовать еще раз?

Если пробный период истек в прошлом, но вы хотите попробовать эту новую версию, вы можете просто щелкнуть ссылку в Exploratory Desktop v5.1, как показано ниже, или связаться с нами по адресу [email protected]!

Кредиты

Пакеты R

Мы не смогли бы сделать Exploratory v5.1 без этих замечательных и удивительных пакетов R. Даже если вы не используете Исследовательский, вам следует взглянуть на эти страницы пакетов и их Виньетки, которые представляют собой практические руководства, вы узнаете много нового о науке о данных!

dplyr (грамматика обработки данных, Mutate, Filter, Group_By и т. д.)



строка



SMOTE



Облака слов



Борута



Маржа (маржинальные эффекты)



CRAN - Поля пакета
Порт R команды« margins
Stata, который можно использовать для расчета предельных (или частичных) эффектов от модели… кран. r-project.org »



relimp (относительная важность)



tidyquant



CRAN - Пакет tidyquant
Перевод финансового анализа в« круговерть
. Пакет tidyquant предоставляет удобную оболочку для различных xts cran.r-project.org »



Библиотека визуализации данных

И, наконец, что не менее важно, я хотел бы представить лучшие в мире библиотеки визуализации данных Java Script Plot.ly и D3. Мы не смогли бы сделать нашу визуализацию данных великолепной без этой красивой и удивительной библиотеки!