Сравнение Google Таблиц и подхода Pandas

Всегда приятно обрабатывать данные с помощью современных инструментов, таких как Pandas или Jupyter. Но давайте представим случай, когда коллега или друг просит провести анализ данных, но он не является техническим специалистом, не использует Python или Jupyter и не имеет аккаунта в Tableau, Power BI или любом другом навороченном (но, увы, не бесплатном) сервисе. В этом случае обработка данных в Google Sheets может быть хорошим решением по нескольким причинам:

  • Google используется во всем мире; на момент написания этой статьи учетную запись Google имеют более 1,8 миллиарда пользователей. В настоящее время почти у каждого есть учетная запись Google, и обмен документами будет очень простым.
  • Экосистема Google безопасна и надежна. Он поддерживает двухфакторную аутентификацию и современные стандарты безопасности, и даже частные наборы данных могут использоваться ограниченными группами людей.
  • И последнее, но не менее важное: решение бесплатное и не требует дополнительных затрат. И в качестве бонуса Google Sheets работает в браузере, не требует установки какого-либо программного обеспечения и может работать на любой платформе, такой как Windows, Linux, OSX или даже на смартфоне.

В этой статье я проведу базовый исследовательский анализ данных в Pandas, затем мы повторим этот процесс в Google Sheets и посмотрим, как это работает.

Источник данных

Чтобы было веселее, давайте воспользуемся реальным набором данных. Мы сделаем инструмент для расчета энергии, вырабатываемой солнечными панелями. Для этого я буду использовать данные PVGIS (European Commission Photo Voltaic Geographical Information System), доступ к которым можно получить бесплатно через этот URL (лицензия CC BY 4.0):

Используя эту страницу, мы можем загрузить данные о солнечном излучении, что позволит нам рассчитать выработку энергии. Как видно на скриншоте, мы можем выбирать почасовые данные для разных лет и разных мест. После загрузки данных давайте использовать их в Pandas.

EDA в пандах

Начнем с исследовательского анализа данных (EDA) в Pandas. Всегда проще…