Мы пытаемся преобразовать .docx — а позже и другие возможные форматы файлов — в своего рода стандартный XML. Этот XML будет преобразован через XSLT в XML по нашему выбору (xsd).
Чтобы преобразование прошло успешно, нам нужно сохранить в документе как можно больше информационных элементов. Наиболее важными из них являются структура, содержание, таблицы, списки и рисунки (изображения и т. д.) в документе.
Мы поняли, что получить документ, эта работа сложна, и что существуют серьезные ограничения на то, какие документы мы можем поддерживать.
Поскольку существуют разные стандарты, внедрение преобразователя для каждого из них потребует времени.
У кого-нибудь есть опыт преобразования документов в XML? Любые советы о том, как действовать?