Форматы файлов, поддерживаемые Presto

Какие форматы файлов поддерживает Presto? Рекомендуются ли какие-либо конкретные форматы файлов для повышения производительности. Мне было бы интересно узнать, есть ли какой-либо столбчатый формат файла, такой как RCfile, оптимизированный для Presto?


person Animesh Raj Jha    schedule 12.11.2013    source источник


Ответы (5)


Мы тестируем каждую версию Trino (ранее PrestoSQL) с Parquet, ORC, RCFile, Avro, SequenceFile, TextFile и другими форматами, но Presto должен поддерживать любой стандартный формат файла Hadoop. В Facebook большая часть наших данных находится в формате ORC, поэтому в настоящее время этот формат имеет лучшую производительность на Presto.

person Dain Sundstrom    schedule 12.11.2013
comment
А как насчет сжатия? Должен ли он поддерживать Snappy / GZIP? Спасибо. - person Igor Semenko; 15.11.2013

Лучше всего оптимизировать ORC. Паркет тоже неплохой, благодаря Netflix еще больше оптимизаций.

person Kamil Bajda-Pawlikowski    schedule 20.11.2015

Для текущей версии presto я рекомендую использовать файл ORC, Dain завершил новую программу чтения ORC в presto, и это очень быстро. Вот блог https://code.facebook.com/posts/370832626374903/even-faster-data-at-the-speed-of-presto-orc/

person 袁安峰    schedule 03.04.2015

В настоящее время Presto поддерживает форматы файлов Text, SequenceFile, RCFile, ORC и Parquet. Ссылка: https://prestodb.io/overview.html

person venus    schedule 13.11.2018

Для коннектора Hive поддерживаются следующие типы файлов: • ORC • Parquet • Avro • RCFile • SequenceFile • JSON • Текст. В моей практике наиболее оптимизированными форматами являются ORC и Parquet.

person Rajashekar Reddy    schedule 30.12.2019