Я прочитал ряд других ответов на stackoverflow и еще не нашел удовлетворительного ответа на этот вопрос, но об этом уже спрашивали. Когда я пытаюсь использовать PyPDF2 для чтения PDF-документов, он объединяет все слова в предложениях в одну непрерывную строку. Кто-нибудь сделал какой-либо прогресс в выяснении, как этого избежать. Ниже приведен код
import PyPDF2
import pandas as pd
import struct as struct
from nltk import word_tokenize
pdfFileObj = open("notes.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
## reading pages fine
print(type(pdfReader.numPages))
## read in the pages
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
ниже пример вывода
2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)
4)Probabilityandrandomvariables