Какие форматы файлов поддерживает Presto? Рекомендуются ли какие-либо конкретные форматы файлов для повышения производительности. Мне было бы интересно узнать, есть ли какой-либо столбчатый формат файла, такой как RCfile, оптимизированный для Presto?
Форматы файлов, поддерживаемые Presto
Ответы (5)
Мы тестируем каждую версию Trino (ранее PrestoSQL) с Parquet, ORC, RCFile, Avro, SequenceFile, TextFile и другими форматами, но Presto должен поддерживать любой стандартный формат файла Hadoop. В Facebook большая часть наших данных находится в формате ORC, поэтому в настоящее время этот формат имеет лучшую производительность на Presto.
Лучше всего оптимизировать ORC. Паркет тоже неплохой, благодаря Netflix еще больше оптимизаций.
Для текущей версии presto я рекомендую использовать файл ORC, Dain завершил новую программу чтения ORC в presto, и это очень быстро. Вот блог https://code.facebook.com/posts/370832626374903/even-faster-data-at-the-speed-of-presto-orc/
В настоящее время Presto поддерживает форматы файлов Text, SequenceFile, RCFile, ORC и Parquet. Ссылка: https://prestodb.io/overview.html
Для коннектора Hive поддерживаются следующие типы файлов: • ORC • Parquet • Avro • RCFile • SequenceFile • JSON • Текст. В моей практике наиболее оптимизированными форматами являются ORC и Parquet.