Как отфильтровать строки с ограничением столбца в Deequ ColumnProfileRunner?

Я новичок в Scala и Spark. Я изучаю библиотеку Amazon Deequ для профилирования данных.

Как получить количество строк, имеющих определенное значение, при использовании ColumnProfilerRunner()?

У AnalysisRunner есть опция «соответствие». Я ищу аналогичную опцию для фильтрации строк, которые соответствуют заданному ограничению столбца.

У меня есть несколько столбцов, поэтому я хочу проверять их динамически, а не использовать имена столбцов.

Цените любую помощь.

Спасибо

amazon-web-services scala amazon-deequ

Ravi 27.02.2020 источник

Ответы (1)

arrow_upward
2
arrow_downward

Профилировщик столбцов Deequ вычисляет фиксированный набор статистических данных. Если вы хотите вычислить пользовательскую статистику ваших данных, вы должны использовать VerificationSuite. Ознакомьтесь с примерами на странице deequ на github.

ssc 27.02.2020

comment

Большое спасибо за Ваш ответ. В примерах VerificationSuite имя столбца используется в качестве аргумента для настраиваемых ограничений. Не могли бы вы указать, как мне использовать его для всех столбцов динамически, не используя имя столбца в качестве аргумента? В моем наборе данных есть динамические столбцы, и я пытаюсь отфильтровать строки всех столбцов, имеющих определенное значение. - Ravi; 28.02.2020

comment

Вы можете использовать API DataFrame для получения всех имен столбцов, а затем динамически создавать проверки для VerificationSuite. - ssc; 29.02.2020

Как отфильтровать строки с ограничением столбца в Deequ ColumnProfileRunner?

Ответы (1)

Вопросы по теме