Вопросы по теме 'fasta'

Объяснение алгоритма FASTA
Я пытаюсь понять основные шаги алгоритма FASTA при поиске похожих последовательностей последовательности запросов в базе данных. Это шаги алгоритма: Определите общие k-слова между I и J Оценка диагоналей с совпадениями k-слов, определение 10...
3231 просмотров
schedule 30.10.2023

Perl: сопоставление элемента массива с последующим копированием ПРЕДЫДУЩЕГО (5 индексов назад) элемента массива в новый массив
по сути, я пытаюсь выполнить поиск в большом текстовом файле, чтобы идентифицировать каждый элемент, который говорит « совпадений не найдено », и скопировать который сопоставляет идентификатор с новым списком. Я в порядке с первой частью...
169 просмотров

Функциональный способ Scala для обработки больших данных Scala с ленивыми коллекциями
Я пытаюсь найти эффективные и функциональные способы обработки больших объемов данных с использованием строк в scala. Я много читал о ленивых коллекциях и видел немало примеров кода. Тем не менее, я снова и снова сталкиваюсь с проблемами «превышены...
4332 просмотров

Создать яблочный скрипт из perl и рубинового скрипта?
Я загружаю белковые последовательности с сайта http://ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi#mainform , которые загружаются с именем файла FASTA.FA. Для каждого белка в файле он включает одну строку описания, а затем последовательность...
215 просмотров
schedule 01.08.2022

Как получить правильный подсчет для точных совпадений FASTA?
Мне нужно найти шаблон wTTTAYRTTTW , где W = A или T , Y = C или T , R = A или R , в Файл FASTA последовательности генома. Должно быть разрешено некоторое несоответствие, то есть точное совпадение строки и их положения. Мой подход:...
288 просмотров
schedule 10.07.2023

Как найти последовательность с одинаковым именем в двух очень больших файлах fasta и соединить их пробелом?
У меня есть два очень больших файла fasta, оба размером около 2 ГБ. У них есть некоторые последовательности с одинаковым именем, так что это похоже на: в R1.фаста: ">ABC001 ACTGTGTCGTG ">ABC003 ACTGTGTCGTG ">ABC005 ACTGTGTCGTG ">ABC010...
985 просмотров
schedule 25.02.2023

Как сократить последовательность генома, чтобы мой рабочий процесс работал правильно?
Я Мориц из Гейдельбергского университета в Германии. Для моей бакалаврской работы у меня есть 20 больших (25-30 ГБ) файлов генома (.txt.gz) пациентов с гепатоцеллюлярной карциномой. У меня установлен Bpipe на моем сервере Ubuntu, и я должен...
75 просмотров

Perl анализа позиции файловой базы FASTA
У меня есть файл (sequences.txt) с 3 последовательностями Fasta, например: >Line40_Chr2L AAAA >Line41_Chr2L CCCC >Line42_Chr2L TTTT Я написал код, который позволяет мне хранить последовательности (без заголовка (>) в переменной с...
214 просмотров
schedule 31.07.2023

Доступ к файлу Fasta с помощью Bio::DB::Fasta
Я использовал модуль use Bio::DB::Fasta для доступа к файлам fasta (документация здесь: https://metacpan.org/pod/Bio::DB::Fasta#OBJECT-METHODS ). Я считаю, что это гораздо быстрее, чем использование Samtools для извлечения позиций из файла fasta....
729 просмотров
schedule 02.07.2022

Как получить свойства генов в формате нуклеотидов FASTA из NCBI с помощью Perl?
Я могу загрузить файл FASTA вручную, который выглядит так: >lcl|CR543861.1_gene_1... ATGCTTTGGACA... >lcl|CR543861.1_gene_2... GTGCGACTAAAA... нажав «Отправить» и выбрав «Генетические характеристики», FASTA Nucleotide является...
1226 просмотров
schedule 06.06.2023

Извлечь последовательность fasta, фланкирующую аминокислоту
Я пытаюсь придумать сценарий python для извлечения последовательности из 12 аминокислот, фланкирующей данную аминокислоту (по 6 в каждом направлении) последовательности fasta. Вход У меня есть 2 входа: файл фаста и фрейм данных панды. Файл...
608 просмотров
schedule 21.03.2022

вы можете вставить комментарии, не связанные с последовательностью, в файл fasta?
Мне было интересно, знает ли кто, как добавлять комментарии к файлу fasta. Я пробовал использовать символ #, но он не подходит для алгоритмов / программного обеспечения выравнивания. Спасибо,
748 просмотров
schedule 16.08.2022

Преобразование таблицы в fasta в R
У меня есть такая таблица: >head(X) column1 column2 sequence1 ATCGATCGATCG sequence2 GCCATGCCATTG Мне нужен вывод в файле fasta, выглядящий так: sequence1 ATCGATCGATCG sequence2 GCCATGCCATTG Итак, в основном мне нужно,...
6262 просмотров
schedule 29.09.2022

Извлечь последовательность в определенных позициях с помощью файла позиций и целевого файла
У меня есть файл последовательности ДНК1 (250 млн символов/байт), который выглядит так (формат FASTA): $sequence-file1 TCCTCCAAATGATGTCAGTGTCCTCCATATGATGTCAATGTCCTCCATAT GATGTCAATATCCTCCGTATGATGTCAATATCCTCCGTATGATGTCAATA...
954 просмотров
schedule 17.06.2022

Вытяните диапазон данных от уникального символа до уникального символа, используя grep или awk
У меня есть умеренно большой файл формата fasta со сложным заголовком. Мне нужно извлечь последовательность на основе значения (8-значного числа) из другого файла. Я могу получить последовательность, используя 'grep -20 "значение" fasta.file'....
134 просмотров
schedule 20.09.2022

Почему fastx_trimmer считает, что мой файл fastq имеет неизвестный формат?
У меня есть несколько файлов .fastq из Illumina NextSeq. Многие из последовательностей имеют поли-А тракты, которые усложняют их картирование. Я хочу удалить все последовательности из десяти последовательных букв A и пытаюсь сделать это с помощью...
685 просмотров
schedule 18.01.2024

bash — поиск строки в файле и возврат всех совпадающих позиций
У меня есть fasta file_imagine в виде txt-файла, в котором четные строки представляют собой последовательности символов, а нечетные строки — это идентификаторы последовательности. Я хотел бы найти строку в последовательностях и получить позицию для...
74 просмотров
schedule 01.01.2023

R: читать файлы fasta в data.frame, используя базу R - НЕ биостроки (и т.п.)
Как можно читать файлы FASTA непосредственно во фрейм данных в R, используя базовый код. Эти файлы хранят информацию о биопоследовательности (например, ДНК или белок) и содержат 2*n строк для n отдельных биомолекул (от id1 до idn) и, таким образом,...
3064 просмотров
schedule 07.06.2023

Создание списков данных об организмах и последовательностях ДНК из нескольких файлов fasta
Я работаю с данными о последовательности ДНК в формате fasta, и мне нужно создать 2 списка, содержащих имена и последовательности организма. Я наткнулся на следующий пост Добавить несколько последовательности из файла FASTA в список на python , но...
275 просмотров
schedule 05.07.2023

Как я могу удалить первую строку из файла fasta?
Структура fasta-файла такая: >gi|568815364|ref|NT_077402.3| Homo sapiens chromosome 1 genomic scaffold, GRCh38 Primary Assembly HSCHR1_CTG1 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC...
1449 просмотров
schedule 04.05.2023