Поздравляю! Вы пережили ужасную часть, с которой борются большинство новичков. Похлопайте себя по спине :)

Теперь приступим к делу. Мы собираемся загрузить биологические данные из базы данных NCBI. Мы будем использовать данные статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6411972/ для сегодняшней демонстрации.

  1. Перейдите на веб-сайт NCBI и введите регистрационные номера. Для этого конкретного примера данные хранятся в BioProject.
  2. После того, как вы нашли файл, скопируйте идентификатор SRR и вставьте его в текстовый редактор для дальнейшего использования.
  3. Откройте свой терминал. Оттуда перейдите в каталог, в который вы хотите загрузить данные. Я буду загружать данные в разделе sra_data, продолжая предыдущую статью. Если вы хотите упорядочить загруженные файлы данных, вы можете создать новый каталог с помощью команды mkdir.
  4. Выполните fastq-dump, используя следующий формат команды ниже, чтобы начать загрузку. Вставьте идентификатор SSR, скопированный на шаге 2.
    fastq-dump -A <paste the SRR ID> --split-3 --gzip

Примечание. В примере данные читаются в конце пары, поэтому мы используем команду --split-3 для разделения. Если ваш файл предназначен для одиночного чтения, вам не нужно использовать команду разделения. Команда--gzip сжимает файл FASTQ. Если вы имеете дело с большими генетическими данными, лучше сжать файлы.

5. Устройтесь поудобнее и подождите, пока это не будет сделано :)

В зависимости от размера файла процесс загрузки может отличаться. В следующей статье я расскажу, как загружать несколько файлов FASTA/FASTQ.