Вышел исследовательский v6.1!

Производительность, пользовательский интерфейс, аналитика, диаграмма и параметр!

Я очень рад анонсировать Exploratory v6.1! 🎉🎉🎉

В этом выпуске есть 3 основных направления.

Во-первых, UI. Мы обновили базовую структуру пользовательского интерфейса. Это позволит нам улучшить UI и UX в более поздних выпусках.

Во-вторых, производительность. Мы переключили файл хранения данных с RDS (двоичный формат данных R) на Parquet. Это сделано для повышения общей производительности.

В-третьих, постепенные улучшения. Мы улучшили сводку, диаграмму, аналитику и параметры.

Вот краткое изложение.

Улучшения производительности

Это усовершенствование сделано под крышкой, но вы заметите это, когда откроете существующие фреймы данных.

Когда вы импортируете данные в Exploratory, он используется для сохранения данных в двоичном формате, называемом RDS, на локальном жестком диске. Это данные на исходном шаге (первый шаг в правой части) перед обработкой данных.

В следующий раз, когда вы откроете фрейм данных после повторного открытия проекта или перезапуска Exploratory, он загрузит данные из файла RDS в память вместо повторного чтения из исходного источника данных, такого как CSV, Excel, база данных и т. Д.

Это сделано для повышения производительности загрузки данных. Загрузка данных из формата RDS происходит намного быстрее, чем загрузка из исходных источников данных.

Теперь, с выпуском v6.1 (точнее, v6.1.2), мы переключили формат хранения данных с RDS на новый формат под названием Parquet, который часто используется для передачи данных в мире больших данных.

У этого переключателя есть 4 больших преимущества.

Намного меньший размер файла данных

Во-первых, размер файла с Parquet намного меньше, чем с RDS.

В качестве примера мы протестировали образец данных с 30 столбцами и 2 миллионами строк.

Когда мы сохранили данные в формате RDS, это было около 480 МБ (мегабайт). В формате Parquet было всего 27 Мб! 🔥

Это всего лишь 5% от того, что было раньше.

Намного более быстрое чтение / запись

И второе преимущество использования Parquet - это скорость чтения и записи файла.

Чтение файла RDS, состоящего из 2 миллионов строк, занимает около 6 секунд, в то время как с Parquet - около 4,8 секунды.

Запись (или создание) того же файла RDS заняла около 5,6 секунды, в то время как в Parquet это заняло около 1,8 секунды.

Это означает две вещи.

Когда вы повторно открываете фрейм данных после повторного открытия проекта или запуска Exploratory, данные загружаются очень быстро. Зависит от размера данных, но вы можете даже почувствовать это мгновенно. 💥💥💥

Кроме того, мы перешли на использование Parquet для кэшированного шага.

Кэшированный шаг считывает данные из файла Parquet и не запускает сам шаг. Более быстрое чтение / запись с помощью файла Parquet также приносит пользу кэшированному этапу.

Кстати, вы можете щелкнуть значок «Кэш», чтобы кэшировать любой из шагов.

Намного быстрее время публикации

Третье преимущество - производительность публикации данных (или диаграммы, панели мониторинга и т. Д.) На сервере (Исследовательское облако или Сервер совместной работы) теперь намного быстрее благодаря меньшему размеру файла Parquet.

Когда вы публикуете данные, Exploratory сначала сжимает (zip) файл хранилища данных. И файл RDS может значительно уменьшить размер при сжатии.

Вышеупомянутый файл RDS может быть уменьшен до 30 МБ.

Файл Parquet не стал намного меньше по сравнению с файлом RDS, но все же сжатый файл Parquet меньше, чем сжатый файл RDS.

И это сокращение файла данных на 30% имеет значение, особенно когда у вас есть панель мониторинга, которая содержит несколько диаграмм из нескольких фреймов данных.

Значительно более быстрое время инициализации интерактивного режима на сервере

Наконец, четвертое преимущество - производительность инициализации интерактивного режима на сервере.

Когда вы создали параметры для своих данных, диаграмм, информационных панелей, заметок и слайдов и опубликуете их на сервере, вы или другие лица, с которыми вы делитесь, можете использовать параметры в веб-браузере.

Чтобы использовать их, вы хотите включить интерактивный режим, щелкнув переключатель «Параметры пользователя».

Благодаря более быстрому чтению файла данных Parquet данные загружаются в область памяти на сервере намного быстрее, чем раньше.

Эти 4 преимущества дает переход на файл Parquet! 🎉

Обзор сводки - режим выделения

В предыдущем выпуске v6.0 мы представили два новых режима - Highlight и Correlation. С тех пор мы получили массу положительных отзывов об этих функциях от наших пользователей.

Для нас это сводное представление, включающее основные моменты и корреляцию, на самом деле является способом демократизации науки о данных, поэтому мы постоянно думаем о том, как мы можем улучшить их дальше.

В v6.1 мы сделали одно большое улучшение в режиме Highlight.

Теперь вы можете щелкнуть значок диаграммы, чтобы создать диаграмму того же типа в представлении «Диаграмма».

Например, у меня есть данные о сотруднике отдела кадров, и я создал условие для выделения: «Ежемесячный доход превышает 6000 долларов».

Теперь, каково соотношение этих сотрудников во всех должностях?

Я могу щелкнуть значок диаграммы в верхней части диаграммы должности.

Это создаст диаграмму с тем же условием, которое отображается цветом.

Отсюда я могу настроить конфигурацию диаграммы или просмотреть подробную информацию о таких сотрудниках, которые соответствовали критериям условия.

Диаграмма

Logicalize - ИСТИНА или ЛОЖЬ

Теперь вы можете создавать диаграммы с цветами, которые визуализируют создаваемые вами логические условия.

Допустим, мы создали диаграмму, на которой показано количество сотрудников по их должностным обязанностям (ось X) и по уровню ежемесячного дохода (цвет).

Теперь, вместо того, чтобы разбивать числовые значения столбца ежемесячного дохода на 5 групп на основе параметра «равной ширины», как насчет «логического преобразования» значений ежемесячного дохода в значение «Истина» или «Ложь» на основе условия «больше 6000 долларов США или нет»? '?

Вы можете щелкнуть зеленую текстовую ссылку, чтобы открыть диалоговое окно «Настройка категории».

И вы можете выбрать «Логическое условие» в меню «Тип» и установить условие.

Это создаст два цвета: синий для тех, кто выполнил условие (True), и серый для остальных.

Не только для числовых столбцов, но вы также можете «логизировать» столбцы с другими типами данных, такими как символьные, логические и дата / время.

Например, вот диаграмма, на которой показано соотношение сотрудников по должности (ось X) и типу образования (цвет).

Допустим, мы хотим знать соотношение сотрудников с образованием в области биологии и медицины в каждой из должностей.

Вы можете выбрать «Категория» в меню «Цвет».

И вы можете создать состояние как «Есть в естествознании или медицине».

Сводная таблица / таблица - URL

Здесь у нас есть столбец заголовка веб-страницы (Заголовок) и связанные с ним метрики и столбцы URL-адресов в данных.

Предположим, вы хотите отобразить эти данные в таблице в режиме просмотра диаграммы и сделать заголовок в виде текста URL-адреса, используя столбец URL-адреса, чтобы вы могли щелкнуть заголовок, чтобы открыть соответствующую страницу.

Вы можете создать такой текст URL-ссылки, используя следующий синтаксис в конфигурации таблицы или сводной таблицы.

${column_name}

Если вы хотите просто использовать значения URL из другого столбца, не нужно проверять «Применить кодировку URL…».

Когда вы хотите это проверить?

Вы хотите использовать эту опцию при построении текста URL, например, следующим образом.

https://google.com?q=${State_Name}

Затем необходимо закодировать некоторые специальные символы. Например, «Северная Каролина» содержит пробел, который необходимо закодировать, чтобы он был частью URL-адреса.

Аналитика

Переключатель аналитики

С v6.1 вы можете легко переключаться между похожими алгоритмами, сохраняя выбор столбца.

Например, предположим, что вы построили модель логистической регрессии.

Допустим, теперь вы хотите посмотреть, как случайный лес может работать с одними и теми же данными, и сравнить их.

Во-первых, вы хотите его продублировать.

Затем переключите тип аналитики на Случайный лес.

Сделать это намного проще, чем раньше!

Источник данных

Таблица Google

Теперь вы можете получить доступ к своим таблицам на общем диске.

Параметр

Мы улучшили общий опыт использования функции Parameter.

UI дизайн

Во-первых, мы обновили дизайн пользовательского интерфейса, включая раскрывающийся список, ползунок и средство выбора календаря.

Новое средство выбора календаря не только выглядит лучше, но и работает лучше.

Интерактивный режим на сервере

Когда вы создали параметры для своих данных, диаграмм, информационных панелей, заметок и слайдов и публикуете их на нашем облачном сервере или на вашем исследовательском сервере совместной работы, вы или другие лица, с которыми вы делитесь, можете использовать параметры в веб-браузере.

Чтобы использовать их, вы хотите включить интерактивный режим, нажав кнопку «Вкл.».

Как упоминалось выше, мы переключили формат хранения данных с RDS на Parquet, и это значительно ускоряет начальную загрузку данных, необходимую для включения интерактивного режима.

Мы также сделали еще одну вещь, чтобы ускорить включение интерактивного режима.

Мы создали нашу собственную систему пула соединений, которая работает все время и ожидает вашего запроса, чтобы сразу же обслуживать ваш запрос включения интерактивного режима.

Благодаря этим двум изменениям вы обнаружите, что начальное соединение работает намного быстрее по сравнению с предыдущим! 🔥

С цитатой или нет

Параметр возвращает значения в двойных кавычках для символьных значений. Это идеально, если вы хотите использовать его, например, внутри предложения WHERE.

SELECT *
FROM employee
WHERE department = @{department_parameter}

Но это нехорошо, если вы хотите изменить имена столбцов с помощью параметра.

SELECT @{select_columns}
FROM employee

Когда у вас есть такой параметр:

За сценой это вернет значения как:

SELECT "Category, Country, Segment, Market"
FROM employee

И если вы запустите это, то получите неожиданный результат.

Чтобы это работало, вы хотите, чтобы параметр «select_columns» возвращал имена столбцов без двойных кавычек.

Теперь вы можете использовать аргумент «цитата» внутри предложения параметра, как показано ниже.

SELECT @{select_columns, quote = FALSE}
FROM employee

Это означает, что когда у вас есть такой параметр:

Он вернется

SELECT Category, Country, Segment, Market
FROM employee

Это кажется незначительным улучшением, но на самом деле это большое дело, особенно если вы хотите параметризовать свои SQL-запросы с большей гибкостью.

Например, вот SQL-запрос, большая часть которого параметризована.

И вы можете управлять запросом SQL с помощью пользовательского интерфейса панели параметров.

Только представьте, что вы создаете что-то подобное и делитесь с другими в своей команде, кто не знаком с SQL! 😎

И это не только для запросов SQL, но также работает для запросов MongoDB и других шагов обработки данных, таких как Фильтр, Создание вычислений и т. Д. 💪

Это все, что касается введения в Exploratory v6.1, но у нас есть еще много улучшений и исправлений ошибок. Не забудьте ознакомиться с полным списком в примечании к выпуску.

И скачайте Exploratory v6.1 со страницы загрузки сегодня же!

Ваше здоровье,

Кан, генеральный директор / исследовательский

Попробуйте Исследовательский!

Если у вас еще нет исследовательского аккаунта, зарегистрируйтесь на нашем сайте и получите 30-дневную бесплатную пробную версию без кредитной карты!

Если вы сейчас учитесь или учитесь в школе, это бесплатно!