Публикации по тегам pyarrow [python, pandas, apache-spark, pyarrow, apache-arrow]

Вопросы по теме 'pyarrow'

Как сохранить огромный фрейм данных pandas в hdfs?

Я работаю с пандами и фреймами данных Spark. Фреймы данных всегда очень большие (> 20 ГБ), и стандартных функций Spark недостаточно для таких размеров. В настоящее время я конвертирую свой фрейм данных pandas в искровой фреймворк следующим образом:...

19187 просмотров

27.08.2022

Создание таблицы поверх записанного паркетного файла в Athena

Я создаю паркетный файл из CSV-файла, используя следующий скрипт python: import pandas as pd import pyarrow as pa import pyarrow.parquet as pq csv_file =...

1964 просмотров

python parquet pyarrow amazon-athena apache-arrow

11.05.2024

Чтение файла Parquet, хранящегося в S3, с помощью AWS Lambda (Python 3)

Я пытаюсь загрузить, обработать и записать файлы Parquet в S3 с помощью AWS Lambda. Мой процесс тестирования / развертывания: https://github.com/lambci/docker-lambda в качестве контейнера для имитации среды Amazon. , из-за того, что...

10037 просмотров

python amazon-s3 parquet aws-lambda pyarrow

04.06.2023

Совместим ли паркетный файл с pyarrow vs pyspark?

Мне нужно преобразовать данные аналитики в JSON в паркет в два этапа. Для больших объемов существующих данных я пишу задание PySpark и выполняю df.repartition(*partitionby).write.partitionBy(partitionby)....

2635 просмотров

python parquet aws-lambda pyarrow amazon-athena

26.08.2022

Как указать логические типы при записи файлов Parquet из PyArrow?

Я использую PyArrow для записи Parquet файлы из некоторых Pandas фреймы данных в Python. Есть ли способ указать логические типы, записываемые в файл паркета? Например, запись столбца np.uint32 в PyArrow приводит к столбцу INT64 в файле...

1866 просмотров

python pandas parquet pyarrow

14.06.2022

Как написать секционированный файл Parquet с помощью Pandas

Я пытаюсь записать фреймворк Pandas в секционированный файл: df.to_parquet('output.parquet', engine='pyarrow', partition_cols = ['partone', 'partwo']) TypeError: __cinit__() got an unexpected keyword argument 'partition_cols' Из документации...

11040 просмотров

python pandas parquet pyarrow

19.02.2022

Как прочитать определенный список паркетных файлов из s3 с помощью PyArrow?

Мне нужно постепенно загружать данные в Pandas из файлов Parquet, хранящихся в s3, я пытаюсь использовать для этого PyArrow, но безуспешно. Запись всего каталога файлов Parquet в Pandas отлично работает: import s3fs import pyarrow.parquet as...

1636 просмотров

python parquet pyarrow

10.10.2022

Конфликт схемы при хранении фреймов данных с объектами datetime с использованием load_table_from_dataframe ()

Я пытаюсь загрузить данные из Pandas DataFrame s в таблицу BigQuery. DataFrame имеет столбец dtype datetime64[ns] , и когда я пытаюсь сохранить df с помощью load_table_from_dataframe() , я получаю google.api_core.exceptions.BadRequest:...

1080 просмотров

google-cloud-platform pandas google-bigquery pyarrow

01.11.2022

Потоковая передача файлов из файла tar в hdfs

У меня есть изображения в формате tiff, хранящиеся в файлах tar в HDFS. Я могу загрузить файл tar и выполнить потоковую передачу из него следующим образом: tar = tarfile.open("filename.tar", 'r|') for tiff in tar: if tiff.isfile(): a...

294 просмотров

python streaming pyarrow tarfile

15.07.2022

Потоковая передача паркетного файла python и только даунсэмплинг

У меня есть данные в формате паркета, который слишком велик для размещения в памяти (6 ГБ). Я ищу способ прочитать и обработать файл с помощью Python 3.6. Есть ли способ передать файл в потоковом режиме, уменьшить его размер и сохранить в dataframe...

2756 просмотров

python-3.x parquet pyarrow fastparquet

30.06.2023

Pandas DataFrame с категориальными столбцами из файла Parquet с использованием read_parquet?

Я конвертирую большие файлы CSV в файлы Parquet для дальнейшего анализа. Я читаю данные CSV в Pandas и указываю столбец dtypes следующим образом _dtype = {"column_1": "float64", "column_2": "category", "column_3": "int64",...

4493 просмотров

python-3.x pandas parquet pyarrow

18.07.2023

Python - модуль pyarrow не имеет атрибута ошибка таблицы

Я использую Python в среде Conda и установил pyarrow с помощью: conda install pyarrow После этого попробовал следующий код: import pyarrow as pa import pandas as pd df = pd.DataFrame({"a": [1, 2, 3]}) # Convert from Pandas to Arrow table =...

4965 просмотров

python parquet pyarrow

25.04.2022

Pyarrow записывает вложенный массив в паркет

Я хочу написать файл паркета, в котором есть несколько обычных столбцов с данными массива 1d и некоторые столбцы с вложенной структурой, то есть массивы 2d. Я пробовал следующее: import pyarrow as pa import pyarrow.parquet as pq import numpy as...

1922 просмотров

python parquet pyarrow

13.10.2022

Как использовать новый объект Int64 pandas при сохранении в паркетный файл

Я конвертирую данные из CSV в Parquet с помощью Python (Pandas), чтобы позже загрузить их в Google BigQuery. У меня есть несколько целочисленных столбцов, которые содержат недостающие значения, и, начиная с Pandas 0.24.0, я могу хранить их как Int64...

6479 просмотров

python parquet google-bigquery pyarrow

28.05.2023

Как прочитать большой файл паркета как несколько фреймов данных?

Я пытаюсь преобразовать большой файл паркета в CSV. Поскольку моя оперативная память составляет всего 8 ГБ, я получаю сообщение об ошибке памяти. Есть ли способ прочитать паркет в несколько кадров данных по циклу?

2067 просмотров

python parquet pyspark pyarrow dask

01.02.2023

Pandas и FastParquet читают один раздел

У меня ужасно долгая работа по чтению набора данных, который имеет естественный логический раздел в штате США. Я сохранил его как набор данных секционированного паркета от pandas, используя fastparquet (используя pd.write_parquet). Я хочу, чтобы...

830 просмотров

python pandas parquet pyarrow fastparquet

02.06.2023

Pyarrow 0.15.1 загрузка пустых файлов в HDFS

Привет, я пытаюсь загрузить файл csv в свой кластер HDFS, используя метод загрузки в интерфейсе файловой системы Hadoop pyarrow: import pyarrow as pa fs = pa.hdfs.connect(host, port, user) with open('test.csv') as f:...

263 просмотров

pyarrow hdfs upload

13.12.2022

Есть ли потоковая передача Spark Arrow = потоковая передача Arrow + структурированная потоковая передача Spark?

В настоящее время у нас есть искровая структурированная потоковая передача В документе со стрелками я обнаружил потоковую передачу по стрелке, где мы можем создать поток в Python, произвести данные и использовать StreamReader для использования...

177 просмотров

apache-spark pyarrow spark-structured-streaming apache-arrow

07.12.2022

Запишите фреймворк больших панд как паркет с помощью Pyarrow

Я пытаюсь написать большой фреймворк pandas (форма 4247x10) Ничего особенного, просто использую следующий код: df_base = read_from_google_storage() df_base.to_parquet(courses.CORE_PATH, engine='pyarrow',...

1189 просмотров

python pandas pyarrow

19.04.2023

сериализованный объект pyarrow через http

Я храню фреймы данных pandas в Redis, сериализуя их с помощью pyarrow. Это хорошо работает. Я хочу сделать эти данные доступными для ноутбуков Jupyter через флягу. Это нормально работает на локальном хосте, но не работает при работе на AWS EB....

236 просмотров

python-3.x pandas flask pyarrow

11.12.2022