Публикации по теме 'parquet'


Как сгенерировать паркетные файлы на Java
Parquet - это формат файла с открытым исходным кодом от Apache для инфраструктуры Hadoop. Ну, он начинался как формат файла для Hadoop, но с тех пор стал очень популярным, и даже поставщики облачных услуг, такие как AWS, начали поддерживать этот формат файла. Это могло означать только то, что Parquet должен что-то делать правильно. В этом посте мы увидим, что именно представляет собой формат файла Parquet, а затем мы увидим простой пример Java для создания или записи файлов Parquet...

Что такое Apache Arrow и чем он отличается от Apache Parquet?
Если вы читаете эту статью, не волнуйтесь, вы не одиноки, кто считает, что apache arrow — это альтернатива apache parquet. Даже у меня сложилось такое первое впечатление, когда я впервые услышал об apache arrow. Но на самом деле они оба дополняют друг друга. Parquet  – это формат двоичных файлов, ориентированный на столбцы, для эффективного хранения файлов на диске с использованием передовых методов сжатия и кодирования, таких как кодирование длин серий, кодирование по словарю,..

Python и производительность паркета
В Pandas, PyArrow, fastparquet, AWS Data Wrangler, PySpark и Dask В этом посте рассказывается, как использовать все распространенные библиотеки Python для чтения и записи формата Parquet, используя преимущества столбчатого хранилища , столбчатого сжатия и разделение данных . При совместном использовании эти три оптимизации могут значительно ускорить ввод-вывод для ваших приложений Python по сравнению с CSV, JSON, HDF или другими строковыми форматами. Parquet делает возможными..

Вопросы по теме 'parquet'

Имена столбцов с учетом регистра в Hive
Я пытаюсь создать внешнюю таблицу HIVE с разделами. Некоторые из моих названий столбцов содержат буквы в верхнем регистре. Это вызвало проблему при создании таблиц, поскольку значения имен столбцов с прописными буквами возвращались как NULL. Затем...
13712 просмотров
schedule 06.01.2023

Создайте таблицу Hive (0.10) для данных схемы с помощью Parquet Fileformat
Я хочу экспортировать данные с сервера в улей. У меня есть 3 уровня вложенных данных в виде классов Java. Мне удалось создать схему avro с помощью Avro Tools ReflectData и записать данные в файлы avro с помощью ReflectDatumWriter. В Hive мне...
1985 просмотров
schedule 03.08.2023

Обновление значений в файле паркета apache
У меня есть довольно здоровенный паркетный файл, в котором мне нужно изменить значения для одного из столбцов. Один из способов сделать это - обновить эти значения в исходных текстовых файлах и воссоздать паркетный файл, но мне интересно, есть ли...
30314 просмотров
schedule 06.08.2023

Класс Case от Parquet с использованием Spark
Я проработал некоторый пример кода, как хранить данные в файле паркета, и реализовал его примерно так, как показано в руководство по программированию : val schema = StructType( List(StructField("id", LongType, false), StructField("values",...
916 просмотров
schedule 12.09.2023

Как более эффективно загружать файлы паркета в Spark (pySpark v1.2.0)
Я загружаю файлы паркета большого размера, но мне нужно всего несколько столбцов. Мой текущий код выглядит так: dat = sqc.parquetFile(path) \ .filter(lambda r: len(r.a)>0) \ .map(lambda r: (r.a, r.b, r.c)) Моя...
10189 просмотров

Как подавить сообщения журнала паркета в Spark?
Как предотвратить появление таких сообщений на моей консоли spark-shell. 5 May, 2015 5:14:30 PM INFO: parquet.hadoop.InternalParquetRecordReader: at row 0. reading next block 5 May, 2015 5:14:30 PM INFO: parquet.hadoop.InternalParquetRecordReader:...
6490 просмотров
schedule 27.10.2022

Что управляет количеством разделов при чтении файлов Parquet?
Моя установка: Два кластера Spark. Один на EC2 и один на Amazon EMR. Оба со Spark 1.3.1. Кластер EMR был установлен с помощью emr-bootstrap-actions . Кластер EC2 был установлен со сценариями EC2 Spark по умолчанию. Код: Прочитайте...
1630 просмотров

Отключить сводку метаданных паркета в Spark
У меня есть искровая работа (для 1.4.1), получающая поток событий кафки. Хотелось бы сохранить их постоянно как паркет на тахионе. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2) lines.window(Seconds(1),...
16588 просмотров
schedule 27.01.2023

Как сохранить отсортированные паркетные таблицы для будущих объединений сортировки слиянием?
Я хочу сохранить большую отсортированную таблицу в Parquet на S3, а затем прочитать ее и соединить с другой большой отсортированной таблицей, используя стратегию Sorted Merge Join. Проблема в том, что хотя я заранее сортирую эти таблицы по ключу...
1701 просмотров
schedule 17.10.2022

Как прочитать файл Parquet с помощью Spark Core API?
Как прочитать файл Parquet с помощью Spark Core API? Я знаю, что при использовании Spark SQL есть несколько методов для чтения файла паркета. Но мы не можем использовать Spark SQL для наших проектов. Должны ли мы использовать метод...
2895 просмотров
schedule 01.05.2023

Интеграционный паркет Spark Swift
Я использую Spark 1.3.0 и уже некоторое время использую его для записи файлов Parquet в хранилище Openstack Swift Object. Я использую около 12 разделов для файлов паркета, которые записывают файл паркета в несколько частей на Swift. Нет проблем с...
1119 просмотров

Как сопоставить имена столбцов Dataframe с атрибутами класса case Scala?
Имена столбцов в этом примере из spark-sql взяты из файла case class Person . case class Person(name: String, age: Int) val people: RDD[Person] = ... // An RDD of case class objects, from the previous example. // The RDD is implicitly converted...
17910 просмотров

Исключение памяти бурения apache
Я пытаюсь переформатировать более 600 ГБ CSV-файлов в паркет с помощью apache Drill в настройке одного узла. Я запускаю свою инструкцию sql: CREATE TABLE AS Data_Transform.'/' AS .... FROM Data_source.'/data_dump/*' и он создает файлы...
617 просмотров
schedule 02.04.2023

Способы написания файлов Parquet с использованием Python?
Мне не удается найти библиотеку, которая позволяет писать файлы Parquet с использованием Python. Бонусные баллы, если я могу использовать Snappy или аналогичный механизм сжатия вместе с ним. Пока что единственный способ, который я нашел, - это...
33483 просмотров

SQLcontext меняет поле String на Long: Spark 1.5
Я сохранил свои записи в формате паркета и использую Spark1.5. Но когда я пытаюсь получить столбцы, он выдает исключение java.lang.ClassCastException: java.lang.Long нельзя преобразовать в org.apache.spark.unsafe.types.UTF8String. Это...
2284 просмотров

Можно ли использовать Pig для ЗАГРУЗКИ из таблицы Parquet в HDFS с разделом и добавления разделов в виде столбцов?
У меня есть секционированная таблица Impala, хранящаяся как Parquet. Могу ли я использовать Pig для загрузки данных из этой таблицы и добавления разделов в виде столбцов? Стол Parquet определяется как: create table test.test_pig ( name:...
3966 просмотров

вывод результатов улья в файлы формата паркет
Можете ли вы экспортировать результат запроса улья в форматы файлов паркета? Я могу экспортировать результаты в виде tsv следующим образом: INSERT OVERWRITE DIRECTORY '/home/user/events' row format delimited fields terminated by '\t' но как...
8594 просмотров
schedule 20.11.2023

Внешняя таблица не обновляется из паркетных файлов, записанных с помощью потоковой передачи искр
Я использую потоковую передачу искр для записи агрегированного вывода в виде паркетных файлов в hdfs с помощью SaveMode.Append. У меня есть внешняя таблица, созданная как: CREATE TABLE if not exists rolluptable USING org.apache.spark.sql.parquet...
5505 просмотров

Чтение файла Parquet, схема Thrift которого изменилась
Я хочу создать файлы Parquet, записи которых представляют собой структуры Thrift, а все поля — optional . Допустим, я создаю файл my_file.parquet , поля которого struct Bar { ... } . Теперь предположим, что я изменил Bar , удалив одно поле и...
347 просмотров
schedule 07.08.2022

Положение Avro, parquet и SequenceFileFormat в экосистеме Hadoop и их полезность
Я видел, как при импорте и хранении в HDFS используются разные форматы файлов, а также механизмы обработки данных используют эти форматы при выполнении собственного набора процедур. Итак, в чем разница между этими форматами файлов и как их выбор...
568 просмотров
schedule 22.01.2023