У меня много файлов (> 100 КБ), и в каждом файле есть запись, разделенная ctrl + M и разделенная \n. Внутри каждого поля данные разделены вертикальной чертой. Pig обрабатывает ctrl+M как разделитель строк, когда мы используем PigStorage(). Я попытался использовать TextLoader(), и он показал такое же поведение. Любые предложения о том, как запустить это в Pig? В этом случае предварительная обработка файлов может оказаться невозможной. Пожалуйста, дайте мне знать, если у вас есть какие-либо предложения.
Образец данных:
abc|^~\&|1100|7G^M0|1|2|3|4|5^Mpqr|^^^00|82|L
Окончательный вывод (1 строка - разделитель ^M):
((abc,^~\&,1100,7G),(0,1,2,3,4,5)(pqr,^^^00,82,L))