Во время обработки документа я хочу извлечь все даты из метаданных html, а затем определить последнюю дату, которая будет использоваться для заполнения поля даты (dtgeneric1).
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data
Проверка с использованием шпионских стадий показывает, что наш конвейер уже добавляет атрибуты meta_*, но имена метаданных будут разными в документах из разных источников.
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes
В идеале мы хотели бы передать все атрибуты meta_* на этап Python и использовать его для определения дат и наибольшего, но, похоже, нет способа указать «все метаатрибуты» в качестве входных данных.
Кто-нибудь делал что-то подобное и может посоветовать, как лучше это сделать.
Спасибо
Нил