Вопросы по теме 'pdf-extraction'

Правильное извлечение текста из pdf (UTF-8)
Я хочу извлечь текст из некоторых файлов PDF (программно, с помощью какой-либо утилиты или даже с помощью копирования/вставки), но некоторые символы получаются очень странными. Хотя при извлечении текста я указываю кодировку UTF-8, такие символы, как...
1531 просмотров

iText - получить размер шрифта и семейство текстового сегмента
В настоящее время я пытаюсь автоматически извлечь важные ключевые слова из файла PDF. Я могу получить текстовую информацию из документа PDF. Но теперь мне нужно знать, какой размер шрифта и семейство шрифтов имеют эти ключевые слова. У меня уже...
10767 просмотров

Ошибка при извлечении изображения из PDF в python
Я пытаюсь извлечь все форматы изображений из pdf. Я немного погуглил и нашел эту страницу на StackOverflow. Я пробовал этот код, но я получаю эту ошибку: Я использую python 3.x, и вот код, который я использую. Я пытался просмотреть...
1761 просмотров

Node.js - проблема с извлечением текста из файла PDF с помощью Google Cloud Vision API.
Я новичок в облачных средах и программировании в целом, и мне сложно использовать Google Vision API для извлечения текста из файла PDF, расположенного в удаленной корзине. Мне было действительно трудно получить значимый контент, связанный с этой...
1046 просмотров

Как извлечь таблицы из исторического PDF-файла?
Мне нужно извлечь данные из таблиц аналогичного формата из этого файла . Есть некоторые ошибки распознавания текста, но у меня есть автоматизированный метод их исправления. Я пытался: Обнаружение таблиц ABBYY Finereader. Извлечение таблицы...
1074 просмотров

Как извлечь текст из PDF в Python 3.7
Я пытаюсь извлечь текст из файла PDF с помощью Python. Моя основная цель - я пытаюсь создать программу, которая считывает банковскую выписку и извлекает ее текст, чтобы обновить файл Excel, чтобы легко регистрировать ежемесячные расходы. Прямо...
34092 просмотров
schedule 31.03.2022

как игнорировать нежелательный шаблон в регулярном выражении
У меня есть следующий код Python from io import BytesIO import pdfplumber, requests test_case = { 'https://www1.hkexnews.hk/listedco/listconews/sehk/2020/0514/2020051400555.pdf': 59,...
48 просмотров
schedule 13.09.2022

Извлечение текста из URL-адреса PDF с помощью io и PyPDF2 не дает вывода
Я пытаюсь извлечь текст из URL-адреса PDF. Если я скачаю PDF, я могу легко извлечь текст с помощью функции slate . Однако при попытке импортировать PDF-файл с помощью io и извлечь текст возвращаемый результат - просто ничего. Код прикреплен...
20 просмотров