Каков формат данных файла, который может быть прочитан Redshift Spectrum?

Я читал о Redshift Spectrum и кое-что не понимаю.

  1. Я понимаю, что Redshift Spectrum будет считывать данные из файлов, хранящихся в S3, но какой именно файл мне нужно сохранить в S3? Это какой-то SQL-запрос? можно в любом формате выложить? Допустим, у меня есть сайт электронной торговли. Могу ли я создать один файл для каждого заказа? или один файл, в котором есть все заказы и который продолжает добавляться к нему?
  2. Стоит ли мне ожидать плоского формата? Или я могу делать больше вещей типа NoSQL с данными в этих файлах?
  3. Каждый раз, когда я запрашиваю, он все еще получает данные из файлов? То есть, скажем, я запускаю запрос 1 ... обновляю существующие файлы ... и снова запускаю запрос. Получу ли я другие результаты? Или данные уже каким-то образом втянуты в спектр?

person majestiq    schedule 26.11.2019    source источник


Ответы (1)


Из Создание файлов данных для запросов в Amazon Redshift Spectrum - Amazon Redshift:

Redshift Spectrum поддерживает следующие форматы структурированных и полуструктурированных данных:

  • АВРО
  • ПАРКЕТ
  • ТЕКСТОВЫЙ ФАЙЛ
  • ПОСЛЕДОВАТЕЛЬНОСТЬ
  • RCFILE
  • RegexSerDe
  • Оптимизированный столбец строк (ORC)
  • Grok
  • OpenCSV
  • Ион
  • JSON

При использовании CREATE EXTERNAL TABLE вы указываете Amazon S3 ведро и путь. Все файлы в этом пути (каталоге) будут включены в запрос. Если файл добавлен / изменен / удален, то при следующем запуске запроса новые / измененные данные будут включены, потому что Redshift Spectrum всегда просматривает файлы, хранящиеся в S3.

Amazon Redshift Spectrum похож на Amazon Athena. Оба они позволяют выполнять SQL-запросы к файлам, хранящимся в корзине Amazon S3.

person John Rotenstein    schedule 26.11.2019