Несколько лет назад я познакомился с практикой аналитики из командной строки Linux через викиучебники. Аналитика из командной строки может быть особенно полезна при работе с большими наборами данных, поэтому мне приходилось ранее использовать ее функции в таких разнообразных областях, как:

  • используя wc -l, чтобы определить, была ли загрузка моих данных успешной
  • использование head и tail для разделения больших файлов для загрузки в базу данных
  • с помощью sed для преобразования между форматами текстовых файлов и избавления от специальных символов, вызывающих проблемы при загрузке данных
  • использование grep, sed, cut и join для определения использования подмножества базы пользователей приложения на основе данных, полученных в результате вызовов API
  • использование вырезать, отсортировать, uniq для определения наиболее распространенных отказавших хостов на основе данных файла журнала

Большинство функций, предлагаемых в SQL, доступны в командной строке unix. Эти команды не предназначены для использования для полноценных аналитических запросов, но предлагают быстрое и эффективное решение для множества небольших и быстрых вопросов, которые могут возникнуть при просмотре набора данных или файлов журналов.

Существует также ряд интерфейсов SQL для терминалов, которые позволяют работать непосредственно с текстовыми файлами, но ни один из них не обладает повсеместностью командной строки unix или такой же способностью работать с менее структурированными наборами данных.