Для начала мне нужно идентифицировать все сокращения и слова, написанные через дефис в моих предложениях. Их нужно распечатывать по мере их идентификации. Мой код, похоже, плохо работает для этой идентификации.
import re
sentence_stream2=df1['Open End Text']
for sent in sentence_stream2:
abbs_ = re.findall(r'(?:[A-Z]\.)+', sent) #abbreviations
hypns_= re.findall(r'\w+(?:-\w+)*', sent) #hyphenated words
print("new sentence:")
print(sent)
print(abbs_)
print(hypns_)
Одно из предложений в моем корпусе: DevOps с API и архитектурой, управляемой событиями, с использованием среды облачной аналитики данных Самообслуживание BI
Выход для этого:
new sentence:
DevOps with APIs & event-driven architecture using cloud Data Analytics environment Self-service BI
[]
['DevOps', 'with', 'APIs', 'event-driven', 'architecture', 'using', 'cloud', 'Data', 'Analytics', 'environment', 'Self-service', 'BI']
ожидаемый результат:
new sentence:
DevOps with APIs & event-driven architecture using cloud Data Analytics environment Self-service BI
['APIs','BI']
['event-driven','Self-service']