При создании PDF-файла в Acrobat пользователь может создать «веб-ссылки или ссылки на документы», что вызывает это приглашение.
был создан с тремя такими ссылками. Вам придется скачать, так как средство просмотра Github не отображает прямоугольники.
Есть ли инструмент/библиотека, которая может читать и извлекать x, y WxH этих прямоугольников и содержащиеся в них ссылки?
Командная строка Linux, Python, PHP?
Я пробовал poppler pdftohtml -xml test3.pdf
, однако он получает только 2 прямоугольника ссылок.
?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
<pdf2xml producer="poppler" version="0.49.0">
<page number="1" position="absolute" top="0" left="0" height="1294" width="646">
<fontspec id="0" size="30" family="Times" color="#000000"/>
<image top="0" left="0" width="647" height="1295" src="test3-1_1.jpg"/>
<text top="163" left="89" width="105" height="47" font="0"><a href="http://www.google.com"><b>test 1 </b></a></text>
<text top="425" left="155" width="97" height="46" font="0"><a href="[email protected]"><b>test 2</b></a></text>
</page>
</pdf2xml>