Поскольку геном содержит последовательность всего генетического материала организма, протеом содержит информацию обо всех белках, экспрессируемых организмом. И, подобно шестерням в механических часах, каждый белок генерирует серию событий, чтобы вызвать реакцию. Домен в белке A распознает фрагмент белка B, и может произойти конформационное изменение, и домен в белке B будет открыт, или катализируется химическая реакция среди многих других возможностей.

Белки состоят из аминокислот, каждая аминокислота образует ковалентную связь с другой аминокислотой, образуя полипептид. После добавления к цепи нескольких аминокислот пептид модифицируется и к пептиду добавляются некоторые другие молекулы, эти модификации приводят к окончательной трехмерной структуре белка.

Внутри белка существует несколько коротких паттернов аминокислот, которые могут быть распознаны другими белками, эти небольшие паттерны известны как мотивы. Мотивы представляют собой короткие последовательности аминокислот, имеющие биологическое значение, и обычно их можно найти путем выравнивания последовательностей белков со схожими функциями. Это приводит к структуре аминокислот, общих для всех белков. В этом уроке я покажу вам, как анализировать и получать закономерности в последовательностях аминокислот.

Исследование

Протеом человека представляет собой стандартную библиотеку белков, созданную UniProt. Эта библиотека содержит все белки, кодируемые известными на данный момент генами, и ее можно найти, нажав здесь. Для анализа данных мы собираемся использовать библиотеку biopython для легкого доступа и использования данных последовательности. Информацию о том, как установить библиотеку, можно узнать, нажав здесь.

Сначала мы загружаем данные и сохраняем их в списке. Имея эту информацию, мы можем обнаружить, что протеом человека содержит 74788 различных белковых последовательностей, и из них только 20352 являются последовательностями, аннотированными вручную. База данных UniProt регулярно обновляется, и эти цифры могут меняться.

Мы также можем найти несколько белков очень большого размера, три из которых содержат более 30 000 аминокислотных остатков. Хотя есть некоторые белки большого размера, средний размер белка составляет 343 аминокислотных остатка, а распределение длин на гистограмме смещено к нулю, что означает, что большинство белков имеют меньший размер.

Подсчитав частоту каждого аминокислотного остатка, мы видим, что наиболее часто встречающейся аминокислотой в белках является лизин, за которым следует серин, а затем глутаминовая кислота.

Для поиска паттернов последовательности мы можем фрагментировать последовательность белка, используя скользящее окно, что означает, что мы собираемся взять фрагмент в последовательности, а затем переместить одну аминокислоту и взять следующий фрагмент и так далее. При таком подходе мы можем получить все возможные комбинации аминокислот, представленных в последовательности.

Однако количество уникальных фрагментов в последовательности стремится к плато при значении, равном длине белка минус размер фрагмента. Если мы проанализируем все последовательности в протеоме человека на наличие такого поведения, мы обнаружим, что с фрагментами из трех аминокислотных остатков количество уникальных комбинаций начинает выходить на плато.

Это означает, что мы можем получить всю изменчивость в последовательности, обрезав последовательность на фрагменты из трех элементов. Используя тот же подход, что и для частоты аминокислот, мы можем обнаружить, что, взяв фрагменты из трех аминокислот, мы получим 8500 уникальных комбинаций, и наиболее частыми комбинациями являются SSS, LLL, EEE.

Поиск закономерностей

С учетом этих выводов мы можем ожидать, что если мы увеличим размер фрагмента, количество уникальных комбинаций существенно возрастет. Чтобы учесть это увеличение, мы можем изменить последовательность, классифицируя аминокислоты по пяти группам: аминокислоты с положительным зарядом, отрицательный заряд, полярная боковая цепь, специальные аминокислоты и гидрофобная боковая цепь.

Мы видим, что гидрофобная боковая цепь является наиболее частым классом, хотя она также содержит наибольшее количество аминокислот по сравнению с другими классами, а вторым наиболее частым классом является полярный класс.

Эта модификация продолжает вести себя таким же образом, и количество уникальных элементов в последовательностях протеома стабилизируется примерно с пятью остатками.

В то время как при подсчете количества уникальных пятисимвольных фрагментов мы получаем 3125 уникальных паттернов, и наиболее распространенными обнаруженными паттернами являются четыре последовательных гидрофобных остатка или три гидрофобных остатка с полярной аминокислотой между ними.

Теперь вы знаете, как манипулировать, анализировать и находить короткие паттерны в протеоме человека или любой другой базе данных последовательностей. Полный код этого урока можно найти, нажав здесь. Увидимся в следующем.