Как отфильтровать строки с ограничением столбца в Deequ ColumnProfileRunner?

Я новичок в Scala и Spark. Я изучаю библиотеку Amazon Deequ для профилирования данных.

Как получить количество строк, имеющих определенное значение, при использовании ColumnProfilerRunner()?

У AnalysisRunner есть опция «соответствие». Я ищу аналогичную опцию для фильтрации строк, которые соответствуют заданному ограничению столбца.

У меня есть несколько столбцов, поэтому я хочу проверять их динамически, а не использовать имена столбцов.

Цените любую помощь.

Спасибо


person Ravi    schedule 27.02.2020    source источник


Ответы (1)


Профилировщик столбцов Deequ вычисляет фиксированный набор статистических данных. Если вы хотите вычислить пользовательскую статистику ваших данных, вы должны использовать VerificationSuite. Ознакомьтесь с примерами на странице deequ на github.

person ssc    schedule 27.02.2020
comment
Большое спасибо за Ваш ответ. В примерах VerificationSuite имя столбца используется в качестве аргумента для настраиваемых ограничений. Не могли бы вы указать, как мне использовать его для всех столбцов динамически, не используя имя столбца в качестве аргумента? В моем наборе данных есть динамические столбцы, и я пытаюсь отфильтровать строки всех столбцов, имеющих определенное значение. - person Ravi; 28.02.2020
comment
Вы можете использовать API DataFrame для получения всех имен столбцов, а затем динамически создавать проверки для VerificationSuite. - person ssc; 29.02.2020