Публикации по тегам pdf-extraction [text, pdf, utf-8, text-extraction, pdf-extraction]

Вопросы по теме 'pdf-extraction'

Правильное извлечение текста из pdf (UTF-8)

Я хочу извлечь текст из некоторых файлов PDF (программно, с помощью какой-либо утилиты или даже с помощью копирования/вставки), но некоторые символы получаются очень странными. Хотя при извлечении текста я указываю кодировку UTF-8, такие символы, как...

1531 просмотров

07.05.2023

iText - получить размер шрифта и семейство текстового сегмента

В настоящее время я пытаюсь автоматически извлечь важные ключевые слова из файла PDF. Я могу получить текстовую информацию из документа PDF. Но теперь мне нужно знать, какой размер шрифта и семейство шрифтов имеют эти ключевые слова. У меня уже...

10767 просмотров

java pdf itext text-extraction pdf-extraction

05.02.2022

Ошибка при извлечении изображения из PDF в python

Я пытаюсь извлечь все форматы изображений из pdf. Я немного погуглил и нашел эту страницу на StackOverflow. Я пробовал этот код, но я получаю эту ошибку: Я использую python 3.x, и вот код, который я использую. Я пытался просмотреть...

1761 просмотров

python python-imaging-library pypdf2 pdf-extraction

28.01.2023

Node.js - проблема с извлечением текста из файла PDF с помощью Google Cloud Vision API.

Я новичок в облачных средах и программировании в целом, и мне сложно использовать Google Vision API для извлечения текста из файла PDF, расположенного в удаленной корзине. Мне было действительно трудно получить значимый контент, связанный с этой...

1046 просмотров

google-cloud-platform node.js google-vision pdf-extraction

28.09.2022

Как извлечь таблицы из исторического PDF-файла?

Мне нужно извлечь данные из таблиц аналогичного формата из этого файла . Есть некоторые ошибки распознавания текста, но у меня есть автоматизированный метод их исправления. Я пытался: Обнаружение таблиц ABBYY Finereader. Извлечение таблицы...

1074 просмотров

pdf data-extraction ocr pdf-extraction python-camelot

28.05.2023

Как извлечь текст из PDF в Python 3.7

Я пытаюсь извлечь текст из файла PDF с помощью Python. Моя основная цель - я пытаюсь создать программу, которая считывает банковскую выписку и извлекает ее текст, чтобы обновить файл Excel, чтобы легко регистрировать ежемесячные расходы. Прямо...

34092 просмотров

python pdf python-3.7 pypdf2 pdf-extraction

31.03.2022

как игнорировать нежелательный шаблон в регулярном выражении

У меня есть следующий код Python from io import BytesIO import pdfplumber, requests test_case = { 'https://www1.hkexnews.hk/listedco/listconews/sehk/2020/0514/2020051400555.pdf': 59,...

48 просмотров

python regex pdf-extraction

13.09.2022

Извлечение текста из URL-адреса PDF с помощью io и PyPDF2 не дает вывода

Я пытаюсь извлечь текст из URL-адреса PDF. Если я скачаю PDF, я могу легко извлечь текст с помощью функции slate . Однако при попытке импортировать PDF-файл с помощью io и извлечь текст возвращаемый результат - просто ничего. Код прикреплен...

20 просмотров

python web-scraping io pdf-extraction pdftotext

21.10.2023