Как обрабатывать преобразование документов из DocX и других форматов файлов в определенный XSD?

Мы пытаемся преобразовать .docx — а позже и другие возможные форматы файлов — в своего рода стандартный XML. Этот XML будет преобразован через XSLT в XML по нашему выбору (xsd).

Чтобы преобразование прошло успешно, нам нужно сохранить в документе как можно больше информационных элементов. Наиболее важными из них являются структура, содержание, таблицы, списки и рисунки (изображения и т. д.) в документе.

Мы поняли, что получить документ, эта работа сложна, и что существуют серьезные ограничения на то, какие документы мы можем поддерживать.

Поскольку существуют разные стандарты, внедрение преобразователя для каждого из них потребует времени.

У кого-нибудь есть опыт преобразования документов в XML? Любые советы о том, как действовать?


person sbadea    schedule 18.07.2016    source источник


Ответы (1)


Вы правы в том, что преобразование из DOCX в произвольный формат XML может оказаться сложной задачей.

Мы хотели бы преобразовать .docx и другие потенциальные форматы файлов в стандартный XML, который можно через XSLT преобразовать в XML с указанным XSD.

Файл DOCX уже находится в стандартном формате XML, известном как Office Open XML (OOXML). См. обзор Office Open XML для ознакомления.

Мы понимаем, что это сложная область. Будут ограничения на то, какие документы мы будем поддерживать, и самое главное для нас — это то, что мы сможем сохранить структуру и содержание.

Учитывая, что OOXML ориентирован на форматирование, в зависимости от того, какую «структуру и содержание» вы хотите идентифицировать, у вас может возникнуть очень сложная проблема классификации. Проблема будет достаточно сложной, зная точный целевой формат; ответ в общем случае невозможен. Один из методов, который может помочь, — сопоставление ключевых слов, заголовков и т. д. на основе шаблонов для определения более структурированных частей целевого формата в исходном документе.

person kjhughes    schedule 18.07.2016