Во время написания магистерской диссертации у меня была возможность поработать с многопрофильной командой It, в которую входят преподаватели компьютерных наук и биологии, 🧪 и аспирант. Мне довелось работать с наборами данных из EMBL и из нашей лаборатории в Кентском университете.

Это 6-месячный проект, в котором задействовано много науки о данных, компьютерах, 💻 науке и сравнительной геномике 🧬. Я работал в основном с грибами и пробовал много разных путей.

Я нашел много результатов из литературы, касающейся CUB. Я ставлю под сомнение один из недавних результатов, опубликованных в Nature. Я создал целое программное обеспечение и набор инструментов для анализа систематической ошибки использования кодонов и доказал их актуальность с помощью вышеупомянутых результатов.

Вы можете найти больше информации об этом проекте и о том, как его использовать, в репозитории Github.

Документация также доступна Здесь.

Смещение использования кодонов - это проблема структуры последовательности ДНК в генах, кодирующих белок, где наборы синонимичных кодонов, блоков из 3 нуклеотидов, которые кодируют одну и ту же аминокислоту в процессе транскрипции, имеют неслучайное распределение.

Поскольку кодоны представляют собой элементы очень низкого уровня в геноме, многие факторы могут объяснить их конкретное распределение. Среди указанных факторов содержание GC в геноме, пул тРНК, скорость репликации клетки, а также размер, эволюционное расстояние и давление на ген могут иметь определенное влияние на него.

Насколько каждый фактор помогает объяснить систематическую ошибку, связанную с использованием кодонов в генах? Какую часть предвзятости использования кодонов они могут предсказать?
Мы решили изучить такие вопросы, используя передовые статистические инструменты, на наборе родственных видов.