Недавно мы получили файл для загрузки, файл в формате PSV, однако все поля заполнены дополнительными символами $~$ слева и справа, поэтому весь PSV выглядит следующим образом:
$~$Поле1$~$|$~$Поле2$~$|$~$Поле3$~$
$~$Данные1$~$|$~$Данные2$~$|$~$Данные3$~$
$~$Данные4$~$|$~$Данные5$~$|$~$Данные6$~$
$~$Данные7$~$|$~$Данные8$~$|$~$Данные9$~$
$~$Data10$~$|$~$Data11$~$|$~$Data12$~$ .....
В файле 100 миллионов строк.
Как лучше всего обрезать эти накладки, чтобы сделать его стандартным PSV?
Большое спасибо, любое предложение / обмен приветствуется здесь.
ОБНОВИТЬ:
Данные получены из SFTP и загружены в Hadoop службой ИТ-поддержки данных (администратор Unix), у нас есть доступ только к кластеру Hadoop, но если это простая работа для службы поддержки данных, возможно, я смогу убедить их выполнить предварительную обработку. Спасибо.