Мне нужно провести некоторый анализ при извлечении данных из PDF-документа.
Используя iTextSharp
, я использовал метод PdfTextExtractor.GetTextFromPage
для извлечения содержимого из документа PDF, и он вернул мне одну длинную строку.
Есть ли способ получить текст по строкам, чтобы я мог хранить их в массиве? Так что я могу анализировать данные по строкам, что будет более гибким.
Ниже приведен код, который я использовал:
string urlFileName1 = "pdf_link";
PdfReader reader = new PdfReader(urlFileName1);
string text = string.Empty;
for (int page = 1; page <= reader.NumberOfPages; page++)
{
text += PdfTextExtractor.GetTextFromPage(reader, page);
}
reader.Close();
candidate3.Text = text.ToString();
Xander
несколько вопросов .. во-первых,PdfReader(urFileName
) `читает ли все строки сразу во время этого вызова ..? если это так, то вам, вероятно, нужно изменить этот цикл for на цикл while и вызвать методreader.ReadLine()
. Я смотрю, как можно было бы нормально читать, используя класс StreamReader, дайте мне знать, существует ли метод .ReadLine () Чтение содержимого PDF проверьте эту ссылку - person MethodMan   schedule 01.04.2013Previous Stackoverflow
сообщение, оно должно указать вам правильное направление stackoverflow.com/questions/2550796/ - person MethodMan   schedule 01.04.2013PdfTextExtractor.GetTextFromPage(reader, page)
используетLocationTextExtractionStrategy
, который, в свою очередь, вставляет'\n'
при изменении текстовой строки. Если это не для вас, что-то подозрительно. Не могли бы вы поэтому предоставить PDF-файл для проверки? - person mkl   schedule 02.04.2013