Легко скачать тезисы PubMed

Простой способ загрузить все рефераты PubMed (плюс некоторую другую информацию)

Я довольно много работаю с этими данными для НЛП, и мне было несколько сложно получить данные непосредственно с веб-сайта PubMed. Поэтому я создал сценарий, чтобы помочь другим избежать этой проблемы. См. мой github для кода.

Краткое содержание

У Huggingface есть этот набор данных, доступный для быстрого доступа: ссылка. Проблема в том, что это 360 ГБ + для загрузки напрямую с

from datasets import load_dataset
pubmed = load_dataset('pubmed')

Итак, мы загрузим это в потоковом режиме:

from datasets import load_dataset
pubmed = load_dataset('pubmed', streaming=True)

Затем мы можем перебрать каждую запись и сохранить ее:

for idx, entry in enumerate(pubmed['train']):
  # print(entry)
  pmid = entry['MedlineCitation']['PMID']
  year = entry['MedlineCitation']['DateCompleted']['Year']
  abstract_text = entry['MedlineCitation']['Article']['Abstract']['AbstractText']
  abstract_title = entry['MedlineCitation']['Article']['ArticleTitle']
  abstract_authors_list = entry['MedlineCitation']['Article']['AuthorList']['Author']['LastName']

Обратите внимание, что я беру только pmid, год, абстрактный текст, абстрактный заголовок и авторов. Есть еще некоторая информация, которую вы можете увидеть, посетив страницу набора данных Huggingface или распечатав одну из записей в наборе данных.