Вопросы по теме 'pyarrow'
Как сохранить огромный фрейм данных pandas в hdfs?
Я работаю с пандами и фреймами данных Spark. Фреймы данных всегда очень большие (> 20 ГБ), и стандартных функций Spark недостаточно для таких размеров. В настоящее время я конвертирую свой фрейм данных pandas в искровой фреймворк следующим образом:...
19187 просмотров
schedule
27.08.2022
Создание таблицы поверх записанного паркетного файла в Athena
Я создаю паркетный файл из CSV-файла, используя следующий скрипт python:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
csv_file =...
1964 просмотров
schedule
11.05.2024
Чтение файла Parquet, хранящегося в S3, с помощью AWS Lambda (Python 3)
Я пытаюсь загрузить, обработать и записать файлы Parquet в S3 с помощью AWS Lambda. Мой процесс тестирования / развертывания:
https://github.com/lambci/docker-lambda в качестве контейнера для имитации среды Amazon. , из-за того, что...
10037 просмотров
schedule
04.06.2023
Совместим ли паркетный файл с pyarrow vs pyspark?
Мне нужно преобразовать данные аналитики в JSON в паркет в два этапа. Для больших объемов существующих данных я пишу задание PySpark и выполняю
df.repartition(*partitionby).write.partitionBy(partitionby)....
2635 просмотров
schedule
26.08.2022
Как указать логические типы при записи файлов Parquet из PyArrow?
Я использую PyArrow для записи Parquet файлы из некоторых Pandas фреймы данных в Python.
Есть ли способ указать логические типы, записываемые в файл паркета?
Например, запись столбца np.uint32 в PyArrow приводит к столбцу INT64 в файле...
1866 просмотров
schedule
14.06.2022
Как написать секционированный файл Parquet с помощью Pandas
Я пытаюсь записать фреймворк Pandas в секционированный файл:
df.to_parquet('output.parquet', engine='pyarrow', partition_cols = ['partone', 'partwo'])
TypeError: __cinit__() got an unexpected keyword argument 'partition_cols'
Из документации...
11040 просмотров
schedule
19.02.2022
Как прочитать определенный список паркетных файлов из s3 с помощью PyArrow?
Мне нужно постепенно загружать данные в Pandas из файлов Parquet, хранящихся в s3, я пытаюсь использовать для этого PyArrow, но безуспешно.
Запись всего каталога файлов Parquet в Pandas отлично работает:
import s3fs
import pyarrow.parquet as...
1636 просмотров
schedule
10.10.2022
Конфликт схемы при хранении фреймов данных с объектами datetime с использованием load_table_from_dataframe ()
Я пытаюсь загрузить данные из Pandas DataFrame s в таблицу BigQuery. DataFrame имеет столбец dtype datetime64[ns] , и когда я пытаюсь сохранить df с помощью load_table_from_dataframe() , я получаю
google.api_core.exceptions.BadRequest:...
1080 просмотров
schedule
01.11.2022
Потоковая передача файлов из файла tar в hdfs
У меня есть изображения в формате tiff, хранящиеся в файлах tar в HDFS. Я могу загрузить файл tar и выполнить потоковую передачу из него следующим образом:
tar = tarfile.open("filename.tar", 'r|')
for tiff in tar:
if tiff.isfile():
a...
294 просмотров
schedule
15.07.2022
Потоковая передача паркетного файла python и только даунсэмплинг
У меня есть данные в формате паркета, который слишком велик для размещения в памяти (6 ГБ). Я ищу способ прочитать и обработать файл с помощью Python 3.6. Есть ли способ передать файл в потоковом режиме, уменьшить его размер и сохранить в dataframe...
2756 просмотров
schedule
30.06.2023
Pandas DataFrame с категориальными столбцами из файла Parquet с использованием read_parquet?
Я конвертирую большие файлы CSV в файлы Parquet для дальнейшего анализа. Я читаю данные CSV в Pandas и указываю столбец dtypes следующим образом
_dtype = {"column_1": "float64",
"column_2": "category",
"column_3": "int64",...
4493 просмотров
schedule
18.07.2023
Python - модуль pyarrow не имеет атрибута ошибка таблицы
Я использую Python в среде Conda и установил pyarrow с помощью: conda install pyarrow
После этого попробовал следующий код:
import pyarrow as pa
import pandas as pd
df = pd.DataFrame({"a": [1, 2, 3]})
# Convert from Pandas to Arrow
table =...
4965 просмотров
schedule
25.04.2022
Pyarrow записывает вложенный массив в паркет
Я хочу написать файл паркета, в котором есть несколько обычных столбцов с данными массива 1d и некоторые столбцы с вложенной структурой, то есть массивы 2d.
Я пробовал следующее:
import pyarrow as pa
import pyarrow.parquet as pq
import numpy as...
1922 просмотров
schedule
13.10.2022
Как использовать новый объект Int64 pandas при сохранении в паркетный файл
Я конвертирую данные из CSV в Parquet с помощью Python (Pandas), чтобы позже загрузить их в Google BigQuery. У меня есть несколько целочисленных столбцов, которые содержат недостающие значения, и, начиная с Pandas 0.24.0, я могу хранить их как Int64...
6479 просмотров
schedule
28.05.2023
Как прочитать большой файл паркета как несколько фреймов данных?
Я пытаюсь преобразовать большой файл паркета в CSV. Поскольку моя оперативная память составляет всего 8 ГБ, я получаю сообщение об ошибке памяти. Есть ли способ прочитать паркет в несколько кадров данных по циклу?
2067 просмотров
schedule
01.02.2023
Pandas и FastParquet читают один раздел
У меня ужасно долгая работа по чтению набора данных, который имеет естественный логический раздел в штате США. Я сохранил его как набор данных секционированного паркета от pandas, используя fastparquet (используя pd.write_parquet).
Я хочу, чтобы...
830 просмотров
schedule
02.06.2023
Pyarrow 0.15.1 загрузка пустых файлов в HDFS
Привет, я пытаюсь загрузить файл csv в свой кластер HDFS, используя метод загрузки в интерфейсе файловой системы Hadoop pyarrow:
import pyarrow as pa
fs = pa.hdfs.connect(host, port, user)
with open('test.csv') as f:...
263 просмотров
schedule
13.12.2022
Есть ли потоковая передача Spark Arrow = потоковая передача Arrow + структурированная потоковая передача Spark?
В настоящее время у нас есть искровая структурированная потоковая передача
В документе со стрелками я обнаружил потоковую передачу по стрелке, где мы можем создать поток в Python, произвести данные и использовать StreamReader для использования...
177 просмотров
schedule
07.12.2022
Запишите фреймворк больших панд как паркет с помощью Pyarrow
Я пытаюсь написать большой фреймворк pandas (форма 4247x10)
Ничего особенного, просто использую следующий код:
df_base = read_from_google_storage()
df_base.to_parquet(courses.CORE_PATH,
engine='pyarrow',...
1189 просмотров
schedule
19.04.2023
сериализованный объект pyarrow через http
Я храню фреймы данных pandas в Redis, сериализуя их с помощью pyarrow. Это хорошо работает. Я хочу сделать эти данные доступными для ноутбуков Jupyter через флягу. Это нормально работает на локальном хосте, но не работает при работе на AWS EB....
236 просмотров
schedule
11.12.2022