Как разобрать файл tmx (файл xml для данных перевода) в logstash

Я использую файлы TMX (xml-файл для данных перевода) в качестве источника в Logstash для индексации данных в Elasticsearch.

Пример TMX-файла выглядит следующим образом:

<?xml version="1.0" encoding="UTF-8"?>
<tmx version="1.4">
  <header creationtool="ModernMT - modernmt.eu" creationtoolversion="1.0" datatype="plaintext" o-tmf="ModernMT" segtype="sentence" adminlang="en-us" srclang="en-GB"/>
  <body>
    <tu srclang="en-GB" datatype="plaintext" creationdate="20121019T114713Z">
  <tuv xml:lang="en-GB">
    <seg>The purpose of the standard is to establish and define the requirements for the provision of quality services by translation service providers.</seg>
  </tuv>
  <tuv xml:lang="it">
    <seg>L'obiettivo dello standard è stabilire e definire i requisiti affinché i fornitori di servizi di traduzione garantiscano servizi di qualità.</seg>
  </tuv>
</tu>
<tu srclang="en-GB" datatype="plaintext" creationdate="20111223T112746Z">
  <tuv xml:lang="en-GB">
    <seg>With 1,800 experienced and qualified resources translating regularly into over 200 language combinations, you can count on us for high quality professional translation services.</seg>
  </tuv>
  <tuv xml:lang="it">
    <seg>Abbiamo 1.800 professionisti esperti e qualificati che traducono regolarmente in oltre 200 combinazioni linguistiche; perciò, se cercate la qualità, potete contare su di noi.</seg>
  </tuv>
</tu>
<tu srclang="en-GB" datatype="plaintext" creationdate="20111223T112746Z">
  <tuv xml:lang="en-GB">
    <seg>Access our section of useful links</seg>
  </tuv>
  <tuv xml:lang="it">
    <seg>Da qui potrete accedere a una sezione che propone link a siti che possono essere di vostro interesse</seg>
  </tuv>
</tu>

Что мне нужно сделать здесь, так это получить доступ к каждому блоку <tu> как к событию, где два блока <tuv> внутри будут использоваться как поля данных. Данные, хранящиеся в первом блоке tuv, будут проиндексированы в ES как поле данных исходного языка, а данные, сохраненные во втором блоке tuv, будут полем данных целевого языка.

Документ TMX может содержать более 10000 tuv блоков.

У меня проблемы с использованием фильтра xml, и сейчас он выглядит так:

input {
    file {
        path => "/en-gb_pt-pt/81384/81384.xml"
            start_position => "beginning"
        codec => multiline {
                pattern => "<tu>" 
                    negate => "true"
                    what => "previous"
        }
    }
}

filter {
    xml {
        source => "message"
            target => "xml_content"
            xpath => [ "//seg", "seg" ] 
    }
}

output {
    stdout {
            #codec => json
            codec => rubydebug
    }
}

Вот часть моего индексного шаблона,

"segment": {
            "_parent": {
                "type": "tm"
            },
            "_routing": {
              "required": "true"
            },
            "properties": {
                "@timestamp": {
                    "type": "date",
                    "format": "strict_date_optional_time||epoch_millis"
                },
                "@version": {
                    "type": "string"
                },
                "source": {
                    "type": "string",
                    "store": "true",
                    "fields": {
                        "length": { 
                            "type":     "token_count",
                            "analyzer": "standard"
                        }
                    }
                },
                "target": {
                    "type": "string",
                    "store": "true",
                    "fields": {
                        "length": { 
                            "type":     "token_count",
                            "analyzer": "standard"
                        }
                    }
                }
            }
        }

person avizzzy    schedule 25.08.2017    source источник


Ответы (1)


Я бы предложил простой подход, используя фильтр grok или dissect.

filter {
    dissect {
        mapping => { "message" => "%{}<seg>%{src}</seg>%{}<seg>%{trg}</seg>%{}" }
    }
    mutate {
       remove_field => ["message"]
    }
}

И вы получаете:

{
          "path" => "/en-gb_pt-pt/81384/81384.xml",
    "@timestamp" => 2017-08-25T15:07:34.567Z,
           "src" => "The purpose of the standard is to establish and define the requirements for the provision of quality services by translation service providers.",
      "@version" => "1",
          "host" => "my_host",
           "trg" => "L'obiettivo dello standard è stabilire e definire i requisiti affinché i fornitori di servizi di traduzione garantiscano servizi di qualità.",
          "tags" => [
        [0] "multiline"
    ]
}
person Imma    schedule 25.08.2017