Pentaho пропускает заголовки, добавляя имя файла к выводу

Мне нужно прочитать файл .vcf.gz с сайта pentaho. Я могу прочитать это из «Ввод текстового файла» на вкладке «Контент», установив «сжатый» на «GZ».

-Прежде всего, мне нужно пропустить заголовки (в основном каждую строку с # в начале).

-Во-вторых, мне нужно вставить новый столбец, где в каждой строке я вставляю имя файла.

E.g.

Мой файл:

#header
#header
#header
# chr pos ref alt
  chr1 3   A   A

Я хочу:

chr1 3 A A id_001 (Taken readeing file name)

Как я могу этого добиться?


person xCloudx8    schedule 20.10.2016    source источник


Ответы (1)


Если вы нашли вкладку «Содержимое», вы должны увидеть флажок «Заголовок». Вы можете указать количество строк, которые нужно пропустить.

введите описание изображения здесь

Что касается имени файла, вкладка «Дополнительные поля вывода» - это то, что вам нужно.

введите описание изображения здесь

Вот предварительный просмотр вывода:

введите описание изображения здесь

Если вам нужно удалить расширение файла из имени файла, есть несколько способов сделать это.

person CGritton    schedule 20.10.2016
comment
Я что-то делаю не так. Я установил путь к файлам, чтобы получить нужные мне файлы. Я изменил вариант заголовка, как вы мне показали, в соответствии с моими потребностями. Я добавил последний столбец, но он показывает мне только последний столбец. Стоит ли что-то менять во вкладке Поля? - person xCloudx8; 20.10.2016
comment
Ах да, тебе нужны поля. У тебя там что-нибудь есть? - person CGritton; 20.10.2016
comment
Хорошо, отлично, я решил проблему полей. Как я могу решить проблему с именем файла? Меня зовут так: 001.genome.vcf.gz Я хочу удалить все, что находится после первого. так что я только 001. Есть другие варианты? - person xCloudx8; 20.10.2016
comment
Это действительно зависит от требований. Если вам всегда нужно просто избавиться от .genome.vcf.gz, то проще всего это сделать с помощью шага «Заменить в строке». - person CGritton; 20.10.2016
comment
Если что будет после первого. будет изменяться, но ваше имя файла всегда состоит из трех символов, тогда вы можете использовать этап вырезания строк. Если это сложнее, вам, вероятно, придется использовать крошечный java-скрипт. - person CGritton; 20.10.2016
comment
Большое спасибо, я сделал это! - person xCloudx8; 20.10.2016