exist-db как получить доступ к pdf

Я уверен, что это очень просто ... Я просто не могу разобраться в этом ... Документация exist-db немного нечеткая по извлечению контента ... http://exist-db.org/exist/apps/doc/contentextraction.

У меня есть pdf-файл, содержащий около 162 изображений с высоким разрешением (pdf довольно большой ...), и я не знаю, как получить доступ к любому из предположительно созданных ...

пожалуйста, не уничтожайте меня! Я только начинаю создавать базу данных (для Edition в Uni). Мне бы хотелось иметь факсимильную версию (так что одна вкладка с файлом изображения и одна вкладка с транскрибированными текстами)

Я стремлюсь сделать что-то похожее на то, что Гейдельбергский университет сделал с "Welsche Gast Digital" http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image (выбранное изображение является лишь примером!) Эта картинка При нажатии на факсимиле открывается Сканирование, а при нажатии на Транскрипция открываются транскрибированные тексты!

Я новичок в Xquery, Xpath и большинстве вещей, связанных с X. У меня есть "рабочий дизайн", собранный в exist-db, и я ищу TEI для разметки транскрипции и т. Д., Боюсь, мне придется потратить некоторое время на эту проблему ... (это не касается моей работы для меня это просто указывает мне в правильном направлении)


person Community    schedule 24.07.2018    source источник


Ответы (1)


Боюсь, короткий ответ - просто нет.

Хранение PDF-файла в вашей базе данных, а затем попытка извлечь из него изображения - это своего рода рецепт катастрофы. Вместо этого вы должны использовать исходные изображения (не обязательно извлеченные из pdf) и хранить их по отдельности в коллекции (например, resources / img). Эти файлы изображений являются двоичными ресурсами, о которых на самом деле говорится в документации.

Возможно, вы захотите взглянуть на tei-publisher для создания цифрового издания в существующих, особенно это демонстрационное приложение для демонстрации факсимиле высокого разрешения с транскрибированными частями текста. Боюсь, что все это немного сложнее, чем просто открытие PDF-файла в браузере, но и Welsche Gast Digital тоже.

person duncdrum    schedule 24.07.2018
comment
Спасибо за ваше время и ответ! Я так и думал, но я подумал, что есть простой способ, на который я не наткнулся :-) Поскольку я хочу, чтобы факсимиле и транскрипция соответствовали их соответствующему виду, я думаю, что лучше всего использовать отдельные xml-файлы, которые объединены факсимиле, которое я затем использую, чтобы открыть факсимиле в ответ .... (это не мой первоначальный вопрос, но я обрабатываю то, что вы написали) (я должен расшифровать одну книгу и еще не решил, хочу ли я использовать один гигантский xml-файл (который я нахожу беспорядочным, но) или несколько меньших (что, на мой взгляд, более элегантно). - person ; 25.07.2018
comment
Как организовать ваши файлы tei и как связать файлы tei с img - это отдельные вопросы. Если у вас есть базовый рабочий код, не стесняйтесь задавать здесь еще один вопрос. Страницы, на которые я ссылаюсь, показывают вам примеры того, как достичь того, чего вы хотите, они также показывают вам, как создавать PDF-файлы из ваших файлов tei + img. Если мой ответ помог вам разместить загруженный PDF-файл и извлечь изображения для отдыха, отметьте его как принятый ответ в пользовательском интерфейсе переполнения стека (только вы можете это сделать). - person duncdrum; 25.07.2018
comment
Как предложил Дункан, всегда используйте оригинальные тексты и изображения, если у вас есть к ним доступ. Если они недоступны, вам придется использовать модуль извлечения контента в крайнем случае. - person adamretter; 29.07.2018