У меня есть файл PDF, который содержит 2 страницы. Когда я разбираю его своим парсером в Ojective-C, у меня возникает следующая ситуация.
Для первой страницы все в порядке, у меня есть текст, который должен быть (который я визуально вижу в читалках pdf, таких как Preview, Adobe reader ...). Для второй страницы у меня есть текст, который я вижу на второй странице, ПЛЮС часть текста с первой страницы, которой нет на второй странице.
Я пробовал с другими парсерами: pdftotext (xpdf), им удалось получить правильный результат. Pdfminer (на питоне) https://pypi.python.org/pypi/pdfminer/, Я получил тот же результат, что и я. Часть текста с первой страницы извлекается дважды.
Мой вопрос: как это может произойти? Вы когда-нибудь видели эту ситуацию? Если текст действительно присутствует на второй странице, то почему читатели pdf его не показывают? У вас есть какие-нибудь мысли по этому поводу?