Популяционная генетика - это многое, но популярная область, о которой пишут в Wired или в технической прессе, обычно не входит в их число. Она возникла из менделевской генетики в первые десятилетия 20-го века, превратив элегантные родословные в заумные алгебраические формулы. Это был своеобразный гибрид математики и эволюционной биологии, навязчивые идеи викторианских академиков конца XIX века. Популяционная генетика была продуктом особой истории, как и темы, которые она изучала.

С точки зрения популяционной генетики эволюция стала просто «изменением частот аллелей с течением времени». Аллели - это ранний термин для различных генетических вариантов, которые коррелировали с паттернами наследования.

В то время как некоторые области количественной науки сосредоточены на анализе собранных данных, ранняя популяционная генетика была более сосредоточена на логических выводах из теоретических моделей. Эти модели включали алгебраические выводы, которые были следствием предположений о значениях параметров, таких как мутации или естественный отбор, в контексте случайных спаривающихся популяций. Иногда эти модели дополнялись геометрическими аналогиями и иллюстрациями, но в целом эту область науки населяли мыслители, привыкшие к абстрактным символам, а не к беспорядку и суете лабораторной биологии.

Это было делом не только предпочтением, но и необходимостью.

Данных по ранней генетике в масштабах всей популяции просто не было.

Структура ДНК не была выяснена до 1952 года. Молекулярная эволюция произошла только в следующем десятилетии, а то, что мы называем геномикой, является продуктом самого конца 20-го века.

Но рост данных с 2000 года был экспоненциальным. Первые 80 лет популяционная генетика была областью, в которой было слишком мало данных, она была сосредоточена на теории. За последние 20 лет, когда популяционная геномика расцвела, исследователям пришлось столкнуться с тем фактом, что теоретическая конструкция, построенная, когда был доступ к генетическим вариациям по десяткам локусов внутри вида, неадекватна в мире. где есть доступ ко всем геномам сотен людей.

В настоящее время популяционная генетика - это не только теоретическая наука, но и наука о данных.

Такие слова, как машинное обучение и глубокое обучение, одновременно банальны и эзотеричны. Кто не знает, что такое машина? Или что глубокое значит? И все учатся! Но, конечно, эти термины относятся к областям компьютерных наук, которые возникли для работы с массой данных, генерируемых современным обществом. Машины, обучающиеся глубоко, кажутся загадочным подвигом!

Когда в 1920-х и 1930-х годах для моделирования эволюционных процессов была разработана популяционная генетика, это считалось чем-то вроде загадки для большинства биологов. Эти теоретики сосредоточились на применении моделей изменения частот аллелей. Они имели дело со стилизованными концепциями единичных мутаций, быстро возрастающих по частоте из-за сильного положительного отбора, или, возможно, новой мутации, подпрыгивающей вверх и вниз в процессе «случайного блуждания» генетического дрейфа. Относительно простые математические процессы описывают простую эволюционную динамику, которую можно проверить с помощью ограниченных данных.

Яркий тому пример - адаптация к малярии в Африке и появление серповидно-клеточной анемии. Это ситуация, когда давление отбора для людей с единственной копией мутантного аллеля уравновешивается стоимостью приспособленности для тех, кто несет две копии мутантного аллеля и, таким образом, демонстрирует серповидно-клеточную анемию. Простая алгебраическая взаимосвязь между стоимостью серповидноклеточной анемии и защитой, предоставляемой носителям мутации против малярии, может позволить вычислить частоты аллелей в одном локусе в популяциях.

Но оказывается, что большая часть естественного отбора не так поддается классическим популяционно-генетическим моделям.

Большая часть естественного отбора в популяциях нелегко локализовать в конкретном локусе. Сам геном человека насчитывает 19 000 генов и десятки миллионов полиморфизмов. Хотя есть некоторые выбранные события, которые соответствуют модели классического поиска единственной мутации, большая часть адаптации может происходить за счет незначительного изменения частот многих аллелей в геноме. Генетическое моделирование популяций начала 20-го века не было разработано для обнаружения этих незаметных процессов, потому что у них не было бы данных, позволяющих обнаружить их эмпирически в течение десятилетий.

Вот тут-то и появляются модные словечки. Глубокое обучение - это метод извлечения функций, шаблонов из массы необработанных данных, которые не могут быть усвоены людьми. Вот почему он применяется в онлайн-маркетинге, чтобы учиться на моделях десятков миллионов людей, а также на их индивидуальных предпочтениях, чтобы генерировать индивидуальный набор вариантов. Это контрастирует с более ранними методами маркетинга, которые основывались на сегментации по определенным демографическим группам, определенным аналитиками. Классический маркетинг не бесполезен, но в контексте электронной коммерции новые методы таргетинга на людей, основанные на большом количестве данных, даже более эффективны.

Машинное и глубокое обучение не означает, что популяционная генетическая теория неуместна. Напротив, классическая популяционно-генетическая теория неоценима как руководство к широкому спектру эволюционных изменений. Она порождает вопросы, которые, наконец, можно проверить. Выводы науки о данных без фирмы теоретическая основа бесперспективна. Но чтобы проверить детали популяционно-генетических процессов, нужно опираться на футуристическую информатику.

Современные машины для секвенирования генерируют больше данных за неделю, чем вся генетика 20-го века за десятилетия.

Только инструменты интерпретации, разработанные в этом веке, могут поглотить масштабы геномики 21 века.