Вопросы по теме 'pyarrow'

Как сохранить огромный фрейм данных pandas в hdfs?
Я работаю с пандами и фреймами данных Spark. Фреймы данных всегда очень большие (> 20 ГБ), и стандартных функций Spark недостаточно для таких размеров. В настоящее время я конвертирую свой фрейм данных pandas в искровой фреймворк следующим образом:...
19187 просмотров

Создание таблицы поверх записанного паркетного файла в Athena
Я создаю паркетный файл из CSV-файла, используя следующий скрипт python: import pandas as pd import pyarrow as pa import pyarrow.parquet as pq csv_file =...
1964 просмотров

Чтение файла Parquet, хранящегося в S3, с помощью AWS Lambda (Python 3)
Я пытаюсь загрузить, обработать и записать файлы Parquet в S3 с помощью AWS Lambda. Мой процесс тестирования / развертывания: https://github.com/lambci/docker-lambda в качестве контейнера для имитации среды Amazon. , из-за того, что...
10037 просмотров
schedule 04.06.2023

Совместим ли паркетный файл с pyarrow vs pyspark?
Мне нужно преобразовать данные аналитики в JSON в паркет в два этапа. Для больших объемов существующих данных я пишу задание PySpark и выполняю df.repartition(*partitionby).write.partitionBy(partitionby)....
2635 просмотров

Как указать логические типы при записи файлов Parquet из PyArrow?
Я использую PyArrow для записи Parquet файлы из некоторых Pandas фреймы данных в Python. Есть ли способ указать логические типы, записываемые в файл паркета? Например, запись столбца np.uint32 в PyArrow приводит к столбцу INT64 в файле...
1866 просмотров
schedule 14.06.2022

Как написать секционированный файл Parquet с помощью Pandas
Я пытаюсь записать фреймворк Pandas в секционированный файл: df.to_parquet('output.parquet', engine='pyarrow', partition_cols = ['partone', 'partwo']) TypeError: __cinit__() got an unexpected keyword argument 'partition_cols' Из документации...
11040 просмотров
schedule 19.02.2022

Как прочитать определенный список паркетных файлов из s3 с помощью PyArrow?
Мне нужно постепенно загружать данные в Pandas из файлов Parquet, хранящихся в s3, я пытаюсь использовать для этого PyArrow, но безуспешно. Запись всего каталога файлов Parquet в Pandas отлично работает: import s3fs import pyarrow.parquet as...
1636 просмотров
schedule 10.10.2022

Конфликт схемы при хранении фреймов данных с объектами datetime с использованием load_table_from_dataframe ()
Я пытаюсь загрузить данные из Pandas DataFrame s в таблицу BigQuery. DataFrame имеет столбец dtype datetime64[ns] , и когда я пытаюсь сохранить df с помощью load_table_from_dataframe() , я получаю google.api_core.exceptions.BadRequest:...
1080 просмотров

Потоковая передача файлов из файла tar в hdfs
У меня есть изображения в формате tiff, хранящиеся в файлах tar в HDFS. Я могу загрузить файл tar и выполнить потоковую передачу из него следующим образом: tar = tarfile.open("filename.tar", 'r|') for tiff in tar: if tiff.isfile(): a...
294 просмотров
schedule 15.07.2022

Потоковая передача паркетного файла python и только даунсэмплинг
У меня есть данные в формате паркета, который слишком велик для размещения в памяти (6 ГБ). Я ищу способ прочитать и обработать файл с помощью Python 3.6. Есть ли способ передать файл в потоковом режиме, уменьшить его размер и сохранить в dataframe...
2756 просмотров
schedule 30.06.2023

Pandas DataFrame с категориальными столбцами из файла Parquet с использованием read_parquet?
Я конвертирую большие файлы CSV в файлы Parquet для дальнейшего анализа. Я читаю данные CSV в Pandas и указываю столбец dtypes следующим образом _dtype = {"column_1": "float64", "column_2": "category", "column_3": "int64",...
4493 просмотров
schedule 18.07.2023

Python - модуль pyarrow не имеет атрибута ошибка таблицы
Я использую Python в среде Conda и установил pyarrow с помощью: conda install pyarrow После этого попробовал следующий код: import pyarrow as pa import pandas as pd df = pd.DataFrame({"a": [1, 2, 3]}) # Convert from Pandas to Arrow table =...
4965 просмотров
schedule 25.04.2022

Pyarrow записывает вложенный массив в паркет
Я хочу написать файл паркета, в котором есть несколько обычных столбцов с данными массива 1d и некоторые столбцы с вложенной структурой, то есть массивы 2d. Я пробовал следующее: import pyarrow as pa import pyarrow.parquet as pq import numpy as...
1922 просмотров
schedule 13.10.2022

Как использовать новый объект Int64 pandas при сохранении в паркетный файл
Я конвертирую данные из CSV в Parquet с помощью Python (Pandas), чтобы позже загрузить их в Google BigQuery. У меня есть несколько целочисленных столбцов, которые содержат недостающие значения, и, начиная с Pandas 0.24.0, я могу хранить их как Int64...
6479 просмотров
schedule 28.05.2023

Как прочитать большой файл паркета как несколько фреймов данных?
Я пытаюсь преобразовать большой файл паркета в CSV. Поскольку моя оперативная память составляет всего 8 ГБ, я получаю сообщение об ошибке памяти. Есть ли способ прочитать паркет в несколько кадров данных по циклу?
2067 просмотров
schedule 01.02.2023

Pandas и FastParquet читают один раздел
У меня ужасно долгая работа по чтению набора данных, который имеет естественный логический раздел в штате США. Я сохранил его как набор данных секционированного паркета от pandas, используя fastparquet (используя pd.write_parquet). Я хочу, чтобы...
830 просмотров
schedule 02.06.2023

Pyarrow 0.15.1 загрузка пустых файлов в HDFS
Привет, я пытаюсь загрузить файл csv в свой кластер HDFS, используя метод загрузки в интерфейсе файловой системы Hadoop pyarrow: import pyarrow as pa fs = pa.hdfs.connect(host, port, user) with open('test.csv') as f:...
263 просмотров
schedule 13.12.2022

Есть ли потоковая передача Spark Arrow = потоковая передача Arrow + структурированная потоковая передача Spark?
В настоящее время у нас есть искровая структурированная потоковая передача В документе со стрелками я обнаружил потоковую передачу по стрелке, где мы можем создать поток в Python, произвести данные и использовать StreamReader для использования...
177 просмотров

Запишите фреймворк больших панд как паркет с помощью Pyarrow
Я пытаюсь написать большой фреймворк pandas (форма 4247x10) Ничего особенного, просто использую следующий код: df_base = read_from_google_storage() df_base.to_parquet(courses.CORE_PATH, engine='pyarrow',...
1189 просмотров
schedule 19.04.2023

сериализованный объект pyarrow через http
Я храню фреймы данных pandas в Redis, сериализуя их с помощью pyarrow. Это хорошо работает. Я хочу сделать эти данные доступными для ноутбуков Jupyter через флягу. Это нормально работает на локальном хосте, но не работает при работе на AWS EB....
236 просмотров
schedule 11.12.2022