Легко скачать тезисы PubMed
Простой способ загрузить все рефераты PubMed (плюс некоторую другую информацию)
Я довольно много работаю с этими данными для НЛП, и мне было несколько сложно получить данные непосредственно с веб-сайта PubMed. Поэтому я создал сценарий, чтобы помочь другим избежать этой проблемы. См. мой github для кода.
Краткое содержание
У Huggingface есть этот набор данных, доступный для быстрого доступа: ссылка. Проблема в том, что это 360 ГБ + для загрузки напрямую с
from datasets import load_dataset pubmed = load_dataset('pubmed')
Итак, мы загрузим это в потоковом режиме:
from datasets import load_dataset pubmed = load_dataset('pubmed', streaming=True)
Затем мы можем перебрать каждую запись и сохранить ее:
for idx, entry in enumerate(pubmed['train']): # print(entry) pmid = entry['MedlineCitation']['PMID'] year = entry['MedlineCitation']['DateCompleted']['Year'] abstract_text = entry['MedlineCitation']['Article']['Abstract']['AbstractText'] abstract_title = entry['MedlineCitation']['Article']['ArticleTitle'] abstract_authors_list = entry['MedlineCitation']['Article']['AuthorList']['Author']['LastName']
Обратите внимание, что я беру только pmid, год, абстрактный текст, абстрактный заголовок и авторов. Есть еще некоторая информация, которую вы можете увидеть, посетив страницу набора данных Huggingface или распечатав одну из записей в наборе данных.