подсчитать мотивы в последовательности ДНК

У меня есть эти последовательности:

GCAGGCATAGTCGGAACTGCTCTAAGCCTATTAATTCGAGCTGAGCTAAGCCAGCCTGGGGCTCTGCTCGGAGATGA
AGTGGGCTTGTTGGGACTGGTCTTTCTTTATTAATTCGTTTTGAGTTAGGCACTGTTGGAGTTTTATTAG---ATAA
GCAGGAATAGTTGGAACCGCCCTTAGCTTATTAATTCGAGCAGAACTCAGCCAACCTGGTGCCTTATTAGGGGATGA
GCTGGCATAGTAGGAACTGCCCTTAGCCTTTTAATTCGAGCAGAGCTCAGTCAACCCGGAGCCCTGCTCGGAGATGA
GCAGGAATAGTTGGAACTGCACTAAGCCTTTTAATTCGAGCTGAACTAAGCCAACCCGGAGCATTACTTGGAGACGA

Они были бы на самом деле длиннее, но правильно не это не важно.

Я хотел бы оценить заданное значение для последовательностей с учетом количества мотивов в.

Я хотел бы подсчитать (количество) мотивов, таких как "ATCGCGCGCGCTTTAAA", в заданной последовательности, а затем использовать это число для оценки значения этой последовательности.

Я знаю, что вы можете использовать логический вопрос, чтобы узнать, есть ли в данной последовательности мотив, но я хотел бы сосчитать их.

Спасибо


person Juan Pablo Aguilar Cabezas    schedule 05.12.2016    source источник


Ответы (1)


EMBOSS Fuzznuc: http://emboss.sourceforge.net/apps/release/6.6/emboss/apps/fuzznuc.html

fuzznuc ищет указанный шаблон в стиле PROSITE в нуклеотидных последовательностях. Такие шаблоны являются спецификациями (обычно короткой) длины последовательности, которую нужно найти. Они могут задавать поиск точной последовательности или допускать различные неоднозначности, совпадения с переменной длиной последовательности и повторяющиеся части последовательности. Одна или несколько последовательностей нуклеотидов считываются из файла. Результатом является стандартный файл отчета EMBOSS, который включает такие данные, как местоположение и количество матчей.

По вопросам биоинформатики следует обращаться на сайт biostars.org.

person Pierre    schedule 05.12.2016