Glue Classifier не может классифицировать журналы s3 с использованием шаблона Gork

Проблема: Запуск Crawler с классификатором с правильным шаблоном gork не создает таблицу со столбцами, вместо этого создается таблица с 0 столбцами и recordCount 0 (но objectCount равен 5)

Подробности. Я настроил Glue Crawler для просмотра корзины s3 с журналами доступа s3. Этот Glue Crawler использует классификатор для классификации столбцов для каждой записи в файле журнала.

Классификатор настроен с помощью приведенного ниже шаблона Горка.

%{NOTSPACE:session_uuid} %{NOTSPACE:bucket_name} \[%{DATA:timestamp}\] %{IP:ip_address} %{NOTSPACE:principle} %{NOTSPACE:request_uuid} %{NOTSPACE:bucket_action} %{NOTSPACE:resource} \"%{DATA:resource_action}\" %{NOTSPACE:http_status} %{NOTSPACE:http_error_msg} %{NOTSPACE:unknown1} %{NOTSPACE:unknown2} %{NOTSPACE:unknown3} %{NOTSPACE:unknown4} %{NOTSPACE:url} %{NOTSPACE:client_info} %{GREEDYDATA:rest}

И приведенный выше шаблон Gork успешно соответствует журналам доступа S3, как показано ниже, когда я тестировал его с помощью онлайн-тестер gork

efaeda52d1d3e3aaa719b9cddf4a4dd161157e2f9343635589d5b625ebcba84b my-s3bucket-12345 [12/Dec/2017:13:55:33 +0000] 123.123.123.123 - 2F834DCEE973FF7B REST.HEAD.BUCKET - "HEAD / HTTP/1.1" 400 AuthorizationHeaderMalformed 365 - 6 - "-" "AWSConfig" -
efaeda52d1d3e3aaa719b9cddf4a4dd161157e2f9343635589d5b625ebcba84b my-s3bucket-12345 [12/Dec/2017:14:32:29 +0000] 123.123.123.123 arn:aws:sts::1234567890:assumed-role/DataAccessRole 2F834DCEE973FF7B REST.GET.ACL - "GET /information-prefix/?acl HTTP/1.1" 200 - 622 - 237 - "-" "S3Console/0.4" -

person auhuman    schedule 13.12.2017    source источник


Ответы (1)


Надеюсь, еще не слишком поздно. Я думаю, что «IP» вызывает у вас проблемы, поскольку он также создает НЕЖЕЛАТЕЛЬНУЮ часть. Просто используйте IPV4 вместо IP. Или вы также можете использовать NOTSPACE.

person Tanveer Uddin    schedule 19.09.2018