Power BI удобен для пользователя, широко используется в компаниях и отлично подходит для анализа тенденций. Так почему же специалисты по анализу данных должны его использовать?

Недавно я завершил свой первый проект в области науки о данных с использованием обработки естественного языка для прогнозирования заявлений о своем образе жизни. Построив свою модель и запустив ее в течение пяти лет с продуктами FMCG, я использовал хорошо известные библиотеки визуализации данных Python Seaborn и Matplotlib, чтобы начать извлекать ключевые идеи.

Экспорт графиков для встраивания в презентации и тому подобное - это здорово, но когда дело дошло до обмена мнениями между заинтересованными сторонами бизнеса с разными интересами, это стало сложнее. С годами информационные панели все чаще используются в качестве альтернативы для обмена данными и позволяют пользователям или аналитикам данных выделять основные моменты. Power BI - это распространенный инструмент, наряду с Tableau и Qlik, для аналитиков и разработчиков, который демонстрирует результаты.

Итак, почему специалисты по данным должны внедрять Power BI и где в этом могут использоваться визуализации Python?

В науке о данных обычное дело - изо всех сил стараться делиться своей работой и сделать ее доступной для всех сотрудников компании. Power BI - хорошее место для загрузки данных (возможно, с использованием сценария Python) и позволяющего другим извлекать собственные идеи с помощью динамической фильтрации, чтобы найти то, что им полезно. Вы можете создавать высокоуровневые визуализации Python в дополнение к встроенным в Power BI диаграммам (в этом проекте я использовал lmplot, swarm и violinplot от Seaborn). Pandas и другие библиотеки также можно использовать во встроенном редакторе Python, который можно загрузить в выбранную вами среду IDE для отладки и тестирования.

Это только начало. Техническое обслуживание и ремонт информационных панелей можно легко передать аналитикам данных, чтобы обеспечить получение бизнесом точной информации; Ваши модели машинного обучения и их эффективность могут быть запечатлены и продемонстрированы всему бизнесу, при этом мы надеемся, что они продемонстрируют ценность вашей работы. И это быстро.

Стоит подумать, что визуализация Python в Power BI займет не более 150 000 строк данных, поэтому, если вы делаете что-то в более крупном масштабе, по возможности используйте pandas для агрегирования данных. В редакторе Python Power BI pandas; matplotlib.pyplot и os уже загружены для вас, хотя и без обычных псевдонимов pd и plt. Если вы перезагрузите их, это в конечном итоге снизит производительность вашей визуализации. Срезы фильтруют диаграммы Power BI и python, однако ваши диаграммы python не являются интерактивными, например вы не можете нажать на точку данных, чтобы отфильтровать другие визуализации в отчете.

Я обнаружил, что python в Power BI является полезным инструментом на последних этапах моего проекта DSci, в частности, для обмена моей работой и идеями. Его также можно использовать для повышения квалификации аналитиков данных, познакомив их с кодами Python и вашими проектами машинного обучения. Определенно, есть улучшения, которые Microsoft может сделать в будущем, чтобы сделать интеграцию python и Power BI более плавной, но даже в текущем состоянии от этого не следует отказываться!