У меня возникли трудности с распечаткой текста с этой страницы, так как BeautifulSoup не получает теги класса span или section. Я хотел бы вытащить текст из Пестрого дурака, а затем разобрать по предложениям.
Пока что, когда он изредка подтягивает текст, синтаксический анализ предложений работает, однако красивый суп лишь изредка подтягивает текст.
from textblob import TextBlob
from html.parser import HTMLParser
import re
def news():
# the target we want to open
url = dataframe_url
#open with GET method
resp=requests.get(url)
#http_respone 200 means OK status
if resp.status_code==200:
soup = BeautifulSoup(resp.text,"html.parser")
#l = soup.find("span",attrs={'class':"article-content"})
l = soup.find("section",attrs={'class':"usmf-new article-body"})
#print ('\n-----\n'.join(tokenizer.tokenize(l.text)))
textlist.extend(tokenizer.tokenize(l.text))
else:
print("Error")
soup.find_all()
вместоsoup.find()
? - person Jack Fleeting   schedule 25.06.2019