9 вещей, которые следует учитывать при выборе Amazon Athena

Amazon Web Services (AWS) вызвал большой ажиотаж в связи с выпуском Athena, инструмента запросов стандарта ANSI или интерактивного сервиса запросов, который работает с «большими данными», хранящимися в Amazon Simple Storage Service (S3).

AWS Athena предоставляет сервис, который предоставляет простые для анализа озера данных на S3. Служба предлагает специальные запросы для быстрого получения результатов для данных для анализа наравне с мощью сложных традиционных систем хранения данных. Если вы обычно используете реляционные базы данных, такие как MySQL, или традиционные хранилища данных, это должно быть вариантом для аналитических рабочих нагрузок, которые вы хотите выполнить.

Типичные варианты использования, поддерживаемые Amazon Athena, - это анализ данных, машинное обучение, визуализация, ETL и отчетность.

Технология основана на открытом ПО Facebook Presto или PrestoDB. Учитывая это происхождение, он предлагает командам бессерверный интерфейсный механизм SQL-запросов для процесса ETL или ELT для загрузки данных в озеро данных AWS S3.

Поскольку он бессерверный, это означает, что нет инфраструктуры для управления, и вы можете подключиться к масштабируемому хранилищу на S3. Это также означает, что вы платите только за выполняемые запросы, что приносит пользу кому-то вроде аналитика данных, который хочет минимизировать затраты Athena.

Что нужно знать об AWS Athena?

Вот девять вещей, которые следует учитывать или о которых следует помнить, прежде чем сделать решительный шаг.

1. Схема и определения таблиц

Для анализа данных вам необходимо убедиться, что у вас есть данные, хранящиеся на S3 в качестве ресурса. Одной из ключевых функций интерактивной службы запросов является то, что ваши наборы данных отделены от инфраструктуры вычислений (запросов). Имея данные на S3, вам нужно будет создать базу данных и таблицы. При создании схем для данных на S3 важен позиционный порядок.

Например, если у вас есть исходный файл со столбцами ID, DATE, CAMPAIGNID, RESPONSE, ROI и OFFERID, тогда ваша схема должна отражать эту структуру:

“ID”,”DATE”,”CAMPAIGNID”,”RESPONSE”,”ROI”,”OFFERID”
“0122”,”December 10, 2015",”123432100A”,”8.43",”A102B”,”4985"
“0123”,”December 10, 2015",”543421111A”,”2.61",”A904F”,”3212"

Если вы не учитываете позицию, вы получите что-то, что не будет соответствовать ожиданиям.

После завершения процесса все базы данных и таблицы автоматически сохраняются в системе и доступны через JDBC и ODBC.

Таблицы поддерживают создание ВИДОВ в тех случаях, когда это может повысить ценность.

Помимо S3, еще одна недавняя опция службы запросов с использованием Athena - это федеративные запросы.

2. Форматы данных

Служба запросов работает с несколькими различными форматами данных. К ним относятся ORC, JSON, CSV и Parquet. Amazon предлагает преобразовать данные в столбчатые форматы хранения с помощью Apache Parquet.

Убедитесь, что ваша команда осведомлена об этой оптимизации, поскольку основная функция интерактивной службы запросов следует за разделением вычислений и хранилища. Использование сжатого и столбчатого формата может снизить затраты на запросы и хранение при дальнейшем повышении производительности.

Amazon также предлагает разделить данные, чтобы уменьшить объем данных, которые запрос должен сканировать, чтобы повысить его производительность. Это может повысить производительность и снизить затраты на запросы. Вы также можете объединить Amazon EMR или Glue для преобразования форматов данных для повышения эффективности файловой структуры и формата.

3. Скорость и производительность

AWS позволяет быстро и легко выполнять запросы Athena к данным S3 без настройки серверов, определения кластеров или выполнения каких-либо дополнительных операций, которые требуются другим системам запросов.

  • Он использует вычислительные ресурсы в нескольких отдельных зонах доступности.
  • Amazon также предоставляет избыточное хранилище данных, поэтому сервис обещает скорость, надежность и доступность.

Ознакомьтесь с советами по производительности и многими другими интересными моментами в блоге AWS. Вы также можете прочитать нашу публикацию о том, почему Apache Parquet, разделы и другие оптимизации обработки запросов помогут вам полностью реализовать потенциал вашего варианта использования.

4. Поддерживаемые функции

Как мы уже упоминали, Athena использует PrestoDB, программное обеспечение с открытым исходным кодом, в качестве своего механизма запросов SQL. Пользователи могут вводить в этот инструмент SQL-код стандарта ANSI и напрямую взаимодействовать с данными Amazon S3. Сюда входят стандартные функции SQL, такие как SELECT, и реляционные операторы, такие как JOIN. См. Документацию по функциям Facebook Presto для получения полного списка функций.

В настоящее время используется только Hive DDL для создания, изменения и удаления таблиц или разделов. Вот полный список поддерживаемых функций SQL и HiveSQL.

5. Ограничения

Есть некоторые ограничения. Например, не поддерживаются:

  • Пользовательские функции и хранимые процедуры
  • Транзакции Hive или Presto
  • Добавлена ​​поддержка LZO. Для нас Google Snappy - рекомендуемый формат сжатия .

Amazon наложил некоторые ограничения на запросы. Например, вы можете разрешить пользователям отправлять только один запрос и иметь пять одновременных запросов, выполняемых для каждой учетной записи.

Каждая учетная запись ограничена 100 базами данных, и в базах данных не может быть более 100 таблиц. Хотя Athena может получить доступ к данным из региона, отличного от того, который инициировал запрос, в настоящее время поддерживается ограниченное количество регионов. На этой странице есть полный и обновленный список этих регионов.

6. Интеграция с ведущими инструментами бизнес-аналитики.

Amazon продвигает сервис как способ создания наборов результатов с помощью SQL-запросов. Однако данные можно использовать с другими инструментами бизнес-аналитики для составления отчетов и анализа. Если вы аналитик данных, поддержка вашего инструмента бизнес-аналитики имеет решающее значение.

Одним из ярких примеров инструмента бизнес-аналитики является Amazon QuickSight. Есть и другие инструменты, такие как Tableau или Looker. Amazon предоставил драйвер JDBC, который можно использовать для взаимодействия с другим программным обеспечением для бизнес-аналитики. Например, вы можете использовать Microsoft Power BI with Athena.

Если вы ищете подробный пример использования, ознакомьтесь с использованием сложных запросов, разделов и кеширования в статье 4 шага по созданию стека бессерверной аналитики с Tableau и Athena.

Наконец, вы можете использовать консоль управления Amazon для выполнения специальных запросов для быстрых тестов или проверок работоспособности.

7. Безопасность Афины

Amazon предлагает три основные функции продукта как способы управления доступом к данным:

  • Политики AWS Identity and Access Management
  • Списки контроля доступа
  • Политики корзины Amazon S3
  • Консоль управления

Пользователи контролируют, кто может получить доступ к данным на S3. Можно точно настроить безопасность, чтобы позволить разным людям видеть разные наборы данных и предоставлять доступ к данным других пользователей. Вы также можете дополнительно ограничить доступ к данным с помощью таких инструментов, как Tableau и Power BI. В этом Руководстве по AWS Athena показано, как настроить S3 и IAM. У нас также есть шаблон CloudFormation для автоматизации.

8. Цена и стоимость Amazon Athena.

Цена немного отличается от таких сервисов, как Amazon Redshift. Пользователи платят только за объем данных, просканированных выполненными ими запросами. Кроме того, за результаты, которые сохраняются в S3, может взиматься плата за хранение. Это кратко объясняет цены:

  • Цена установлена ​​в размере 5 долларов США за каждый ТБ отсканированных данных. Это означает, что вы платите только за выполняемые запросы без дополнительных затрат.
  • Запросы округляются до ближайшего МБ, минимум 10 МБ.
  • Пользователи платят за сохраненные данные по обычным тарифам S3.

Amazon советует пользователям использовать сжатые файлы данных, хранить данные в столбчатых форматах и ​​регулярно удалять старые наборы результатов, чтобы снизить расходы. Форматирование данных в Apache Parquet может ускорить запросы и уменьшить счета за запросы.

9. Интерфейс - Консоль управления Amazon.

Имеет простой и понятный интерфейс. Хотя интерфейс прост в использовании и должен быть интуитивно понятным, необходимы базовые знания SQL.

Структура меню проста для навигации и включает четыре основных вкладки: Встроенный редактор запросов, Сохраненные запросы, История и Диспетчер каталогов. Если у вас есть опыт работы с SQL-запросами, вам не потребуется никакого специального обучения для использования этого инструмента.

Стоит ли рассматривать Афину?

Вы - компания, которая занимается комплексным анализом, отчетностью, машинным обучением, визуализацией или расширенной обработкой данных в крупномасштабных наборах данных?

Модель ценообразования с оплатой за использование вычислительных ресурсов может привлечь аналитиков, которые считали, что возможности этого типа системы запросов выходят за рамки их бюджета или требуют сложных систем и DevOps.

Компании, использующие S3 и нуждающиеся в быстром, но надежном механизме запросов, могут обнаружить, что Athena предлагает идеальное решение. Это особенно актуально для предприятий, которым не нужно настраивать свою инфраструктуру или которые хотят простоты использования Athena для точечного или специального анализа в различных традиционных базах данных, таких как Amazon Redshift, для использования с инструментом аналитики, таким как Tableau Desktop или Tableau Online.

Он будет все больше интегрироваться со сложными инструментами бизнес-аналитики для создания отчетов и визуализаций из различных источников данных на основе больших наборов данных. Если вы ищете альтернативу AWS Athena, посмотрите Facebook Presto.

Если вы в настоящее время являетесь пользователем AWS Redshift, вы можете изучить Amazon Redshift Spectrum. Spectrum предлагает гибридный подход с использованием Redshift для типичных запросов к базе данных, в то время как Spectrum используется для быстрых SQL-запросов к вашему озеру данных. Мы подробно описали варианты и решения для сравнения Redshift Spectrum и Athena.

Начиная

Незнакомые инструменты и системы могут отпугнуть при попытке принимать обоснованные решения. Может показаться, что такие концепции, как озеро данных самообслуживания, механизмы запросов или новый аналитический инструмент, требуют времени на разработку и увеличения времени выхода на рынок. Не стоит беспокоиться!

Мы запустили полностью автоматизированное формирование озера данных, прием данных, базы данных, создание таблиц, преобразование файлов Parquet, сжатие, разделение и склеивание каталога данных без использования кода и без администрирования.

Ссылки - Примеры Amazon Athena из реального мира

Вот несколько реальных примеров, которые показывают, как он все чаще используется в качестве основы для бессерверных стеков аналитики данных.







Хотите обсудить, как использовать движок для аналитики? Нужна платформа и команда экспертов, чтобы дать толчок вашим усилиям в области данных и аналитики? Мы можем помочь! Активное внедрение новых технологий, особенно если ваша команда работает разными и незнакомыми способами, может стать препятствием на пути к успеху. Это особенно актуально в мире самообслуживания. Если вы хотите обсудить пробную концепцию, пилотный проект, проект или любые другие усилия, платформа Openbridge и команда экспертов по данным готовы вам помочь.

Свяжитесь с нами по адресу [email protected]. Предпочитаете поговорить с кем-нибудь об Amazon Athena? Организуйте звонок в нашу команду экспертов по данным.

Посетите нас на www.openbridge.com, чтобы узнать, как мы помогаем другим компаниям в их усилиях по обработке данных.