Извлечение дат из метаданных html в FAST-ESP

Во время обработки документа я хочу извлечь все даты из метаданных html, а затем определить последнюю дату, которая будет использоваться для заполнения поля даты (dtgeneric1).

<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data

Проверка с использованием шпионских стадий показывает, что наш конвейер уже добавляет атрибуты meta_*, но имена метаданных будут разными в документах из разных источников.

#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes

В идеале мы хотели бы передать все атрибуты meta_* на этап Python и использовать его для определения дат и наибольшего, но, похоже, нет способа указать «все метаатрибуты» в качестве входных данных.

Кто-нибудь делал что-то подобное и может посоветовать, как лучше это сделать.

Спасибо

Нил


person Neil    schedule 21.04.2010    source источник


Ответы (1)


Я предполагаю, что пользовательский этап, который принимает все необходимые атрибуты даты в качестве входных данных, обрабатывает сравнение между всеми ними (чтобы найти самую новую дату) и выводит самое последнее поле, выполнит эту работу.

person diman82    schedule 09.05.2010