Базы данных SQL существуют с 1970-х годов. Некоторые из самых умных людей в мире работали над тем, чтобы упростить и упростить нарезку, нарезку, выборку и обработку данных быстро и эффективно. Базы данных SQL прошли такой долгий путь, что многие разработчики и специалисты по данным потеряли представление о том, что они могут делать с простым SQL.

Понимание передовых концепций и методов анализа данных с помощью SQL является ключом к раскрытию преимуществ реляционных баз данных для анализа данных.

Создание описательной статистики, разбиение большого запроса на несколько шагов, очистка и подготовка данных для анализа, получение агрегированных результатов и промежуточных итогов, анализ временных рядов с использованием кумулятивных и оконных рамок, как обрабатывать и заполнять недостающие данные, а также как создавать гистограммы. задачи, которые можно легко выполнить непосредственно в базе данных.

Пытаясь обучить свою команду и читателей, я создал интерактивный класс Практический анализ данных с помощью SQL на Educative. В этом классе я освещаю некоторые из следующих тем.

Базовый SQL для анализа данных

Базовая анатомия запроса и способы выявления простых проблем в SQL. Как использовать общие табличные выражения для разбиения больших запросов на более мелкие, более удобочитаемые фрагменты, как генерировать данные для тестирования и сравнительного анализа, а также как надежно и правильно создавать случайные данные и выбирать большой набор данных.

Класс включает в себя интерактивное упражнение по очень распространенной задаче анализа данных: разделение большого набора данных для обучения и тестирования.

Ознакомьтесь с Базовым SQL для анализа данных

Описательная статистика

Когда мы получаем свежий набор данных, первое, что мы обычно хотим сделать, — это ознакомиться с ним. Некоторые называют это исследовательским анализом данных (EDA).

SQL предоставляет функции для создания описательной статистики, такой как минимум, максимум, среднее значение, дисперсия и стандартное отклонение. Но SQL также включает в себя другие менее известные функции для поиска наиболее распространенных значений в ряду, процентили и так далее.

На этом уроке вы узнаете, как создавать описательную статистику в SQL для различных типов рядов данных.

Ознакомьтесь с разделом Описание серии с помощью SQL

Группировка и промежуточные итоги

При работе с большими данными полезно агрегировать результаты на разных уровнях. Например, подсчет количества учеников в классе, поиск максимальной цены для каждой категории и так далее.

На этом уроке вы узнаете, как использовать SQL для группировки результатов, вычисления агрегатов, что такое условные агрегаты и как производить промежуточные итоги на нескольких уровнях. В дополнение ко всему этому вы также изучите некоторые дополнительные функции SQL, которые сделают вашу работу более продуктивной и облегчат вашу жизнь.

Проверить группировка и итоги

Текущая и кумулятивная агрегация

Если вы работаете с SQL достаточно долго, вы, вероятно, используете GROUP BY для вычисления агрегатов, таких как min, max, sum и count на разных уровнях. Однако есть и другой способ вычисления агрегатов в SQL без использования GROUP BY.

Используя агрегатные выражения, мы можем вычислить агрегат по группе строк, не уменьшая количество строк. Это открывает множество различных типов анализа, таких как текущие и кумулятивные агрегации, ранжирование, операции с оконными рамами и так далее.

Ознакомьтесь с разделом Выполнение и кумулятивное агрегирование.

Интерполяция

Прежде чем мы начнем анализировать данные, нам обычно нужно сначала их очистить. Очистка данных — важная часть этого процесса, и большая его часть — обработка пропущенных значений. Существует несколько способов обработки отсутствующих данных, например, замена отсутствующих данных константой, прямое и обратное заполнение отсутствующих данных соседними точками данных или использование интерполяции.

Посмотрите Интерполяция.

Биннинг

Биннинг или группировка — это метод разделения ряда значений на диапазоны для анализа или визуализации. Для каждого диапазона вычисляем частоту — количество значений из ряда, попадающих в этот диапазон. Диапазоны часто называют бинами, корзинами или группами.

Обычно есть два варианта на выбор: группировка равной высоты или группировка равной ширины. В этом уроке вы научитесь создавать оба варианта и решать, когда каждый из них подходит.

Посмотрите Биннинг.

Заключение

SQL — это больше, чем просто синтаксис. SQL предназначен для доступа к данным и извлечения из них информации. В этом курсе вы изучите и попрактикуетесь в различных способах анализа данных и превращения их в полезную информацию.

Ознакомьтесь с Практическим анализом данных с помощью SQL на сайте Educative.