Pyspark версия Amazon Deequ

Я работаю над AWS Glue и использую API pyspark для своего ETL. Я считаю, что если мне нужно использовать Amazon Deequ, мне нужно переключиться на Scala. Однако я все еще хочу продолжать использовать API-интерфейсы Pyspark. Есть ли выход? Если да, какие шаги мне нужно выполнить в AWS Glue?

Спасибо


person Ankur Shrivastava    schedule 04.10.2020    source источник
comment
Вы уже пробовали профилирование Panda? pypi.org/project/pandas-profiling   -  person cport93    schedule 26.01.2021


Ответы (2)


Для Deequ существует оболочка Python, которая называется PyDeequ, она должна работать, хотя я ее не использовал. сам.

Если вы хотите использовать Python, я бы порекомендовал обратиться к библиотеке Great Expectations, которая реализует функции, очень похожие на Deequ , включая поддержку PySpark.

person Alex Ott    schedule 04.10.2020
comment
Спасибо, Алекс. PyDeequ утверждает, что обладает базовой функциональностью и не охватывает все функции. Библиотека больших ожиданий, похоже, использует чистый python, однако я хотел бы придерживаться pyspark, поскольку у меня есть хороший объем данных. - person Ankur Shrivastava; 04.10.2020
comment
Он также поддерживает Spark. - person Alex Ott; 04.10.2020
comment
Оригинальный Py Deequ будет объединен с официальным проектом AWS Lab/python-deequ. github.com/awslabs/python-deequ - person suci; 23.11.2020

Спасибо за ваше предложение GreatExpectations - фантастическая библиотека, но это пакет, зависящий от C. К сожалению, AWS Glue не поддерживает C-зависимую библиотеку для PySpark.

https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html

Боюсь, я не смогу использовать GreatExpectations

Любое другое предложение библиотеки PySpark будет очень признательно

person Ankur Shrivastava    schedule 08.10.2020