Я использую Hive и пытаюсь очистить данные, которые могут содержать несколько нежелательных данных. Хотел бы знать, могу ли я использовать одну функцию regexp_replace или translate для нескольких условий.
Например. Если строка 2000 Helen St - DO NOT USE
, мне нужно заменить/обрезать - DO NOT USE
, а также изменить St
на Street
. Вывод должен быть 2000 Helen Street
.
Сходным образом
3000 Cross St
должно быть3000 Cross Street
,4000 Mascot Dr
должно быть4000 Mascot Drive
- так далее..
Существует около 10 или более таких условий очистки, и входная строка может соответствовать либо 0, либо нескольким критериям условий. Можно ли настроить эти условия в одном regexp_replace
?
regexp_replace
не должно быть решениемclean
. Скорее подумайте о написании простогоGenericUDF
, который позаботится обо всех сценариях. И он поставляется с мощью Java, поэтому есть бесконечные возможности очистки всех типов данных. - person Gyanendra Dwivedi   schedule 14.03.2018