Каков формат данных файла, который может быть прочитан Redshift Spectrum?

Я читал о Redshift Spectrum и кое-что не понимаю.

Я понимаю, что Redshift Spectrum будет считывать данные из файлов, хранящихся в S3, но какой именно файл мне нужно сохранить в S3? Это какой-то SQL-запрос? можно в любом формате выложить? Допустим, у меня есть сайт электронной торговли. Могу ли я создать один файл для каждого заказа? или один файл, в котором есть все заказы и который продолжает добавляться к нему?
Стоит ли мне ожидать плоского формата? Или я могу делать больше вещей типа NoSQL с данными в этих файлах?
Каждый раз, когда я запрашиваю, он все еще получает данные из файлов? То есть, скажем, я запускаю запрос 1 ... обновляю существующие файлы ... и снова запускаю запрос. Получу ли я другие результаты? Или данные уже каким-то образом втянуты в спектр?

majestiq 26.11.2019 источник

Ответы (1)

arrow_upward
2
arrow_downward

Из Создание файлов данных для запросов в Amazon Redshift Spectrum - Amazon Redshift:

Redshift Spectrum поддерживает следующие форматы структурированных и полуструктурированных данных:

АВРО

ПАРКЕТ

ТЕКСТОВЫЙ ФАЙЛ

ПОСЛЕДОВАТЕЛЬНОСТЬ

RCFILE

RegexSerDe

Оптимизированный столбец строк (ORC)

Grok

OpenCSV

Ион

JSON

При использовании CREATE EXTERNAL TABLE вы указываете Amazon S3 ведро и путь. Все файлы в этом пути (каталоге) будут включены в запрос. Если файл добавлен / изменен / удален, то при следующем запуске запроса новые / измененные данные будут включены, потому что Redshift Spectrum всегда просматривает файлы, хранящиеся в S3.

Amazon Redshift Spectrum похож на Amazon Athena. Оба они позволяют выполнять SQL-запросы к файлам, хранящимся в корзине Amazon S3.

John Rotenstein 26.11.2019

Каков формат данных файла, который может быть прочитан Redshift Spectrum?

Ответы (1)

Вопросы по теме