Синтетическая биология переполнена потенциалом изменить наш мир к лучшему. Но между лабораторными демонстрациями и коммерческими блокбастерами вырисовывается обширное, запутанное пространство биологического дизайна, которое часто оказывается долиной смерти. В Sestina машинное обучение (ML) играет основополагающую роль в более быстром и рутинном охвате этого разделения. Мы считаем две стратегии машинного обучения важными для следующего поколения синтетической биологии: богатые данные и эффективный дизайн. Конечная цель этих стратегий — уменьшить неопределенность и риск на пути от лабораторного к коммерческому производству. Прогнозы с помощью современных архитектур моделей машинного обучения, основанных на высококачественных данных, являются ключом к эффективной навигации по этому запутанному ландшафту.

Подробные данные

Рассмотрим классическую задачу биологии: предсказание трехмерной структуры белка. Аминокислоты — основные строительные блоки жизни — имеют одинаковую структуру во всех организмах. Но как только вы соедините эти строительные блоки в белковые цепочки, получившиеся складчатые структуры станут совершенно уникальными. Каждый белок имеет свою собственную структуру, которая напрямую связана с его функцией, и эта структура сильно зависит от контекста. Прямые измерения структуры белка с помощью рентгеновской кристаллографии и других методов являются дорогостоящими и медленными. Физические симуляции для моделирования динамического процесса сворачивания белка до стационарного состояния все еще не поддаются вычислительной обработке.

Ключевым уроком для синтетической биологии является идея включения более ортогональных источников данных (обширность данных). В 2019 году AlphaFold2 наконец-то продемонстрировал научно полезные и масштабируемые прогнозы свертывания белков. Ключевым нововведением стало обогащение входных данных. Предыдущие модели пытались связать одну белковую последовательность с ее трехмерной структурой. Создатели AlphaFold2 включили дополнительный источник информации: выравнивание многих последовательностей родственных белков. Этот набор связанных последовательностей несет дополнительную информацию о парах аминокислот, которые эволюционируют совместно и имеют более высокую вероятность пространственного контакта. Благодаря этой дополнительной информации AlphaFold2 значительно превзошел предыдущие попытки.

Стоит отметить, что успех AlphaFold2 был обусловлен как более богатыми данными, и новой архитектурой модели, которая могла эффективно использовать новые данные. Архитектура блока Evoformer, основанная на внимании AlphaFold, позволяет смешивать информацию из выравнивания последовательностей и карт контактов, позволяя модели изучать зависимости между ними. В том же духе новые архитектуры моделей, такие как трансформеры, подпитывают прогресс в прогнозировании и проектировании структуры белков, позволяя эффективно представлять взаимодействия признаков более высокого порядка. В Sestina мы инвестируем в современные архитектуры моделей, которые могут специально использовать наши обширные данные.

Мы увеличиваем объем данных несколькими взаимодополняющими способами (рис. 1).

  • Мы проводим высокопроизводительные селекционные эксперименты, в которых тысячи генетических фонов одновременно конкурируют друг с другом в производственных условиях. С помощью этого источника данных наши модели могут связать генотип с приспособленностью в бродильных чанах.
  • Мы запускаем конвейер метаболомики на основе капель, который позволяет нам измерять концентрации метаболитов в миллионах клеток, давая точные снимки метаболических результатов. С помощью этого источника данных мы можем получить больше разнообразия из библиотек штаммов с меньшими ресурсами для скрининга.
  • Мы применяем самые современные методы высококонтентной визуализации (HCI) и анализа изображений, чтобы понять, как морфология клеток связана с производственной эффективностью (во многом так же, как Рекурсия анализирует изображения клеток человека для разработки лекарств). В этом случае тонкие подсказки в форме клеток и текстуре окрашивания могут быть использованы для понимания физиологии клеток. Учитывая низкую стоимость и высокую производительность микроскопии, мы можем дополнить или даже заменить медленные или дорогие анализы анализом изображений ML.
  • В качестве последнего примера мы подчеркиваем целостное генотипирование всего распределения отредактированных клеток, а не только победителей. Представьте себе игнорирование множества уроков неудачных штаммов — вот что традиционная синтетическая биология делала со своей стратегией генотипирования! Путем генотипирования слабых штаммов наши модели машинного обучения научатся распознавать как полезные, так и вредные изменения.

Эффективный дизайн

Второй ключевой урок синтетической биологии — идея более эффективного отбора проб. В 2017 году AlphaZero стала первой программой, обыгравшей чемпионов мира среди людей по шахматам, сёги и го. Одной из стратегий, которую создатели AlphaZero использовали для достижения сверхчеловеческой игры, был эффективный поиск по дереву Монте-Карло, использующий модели глубокого обучения, которые были обучены (на миллионах игр) для точной оценки позиций на доске. Поиск по дереву — это более разумный способ выборки из сложного с точки зрения вычислений набора возможных ходов. Модели машинного обучения вырезали наименее многообещающие ветви и распознавали первые проблески надежды. Такое эффективное рассмотрение возможных действий позволило AlphaZero выбирать выигрышные ходы, учитывая при этом на несколько порядков меньше позиций, чем в предыдущих программах мирового класса.

В Sestina мы объединяем шаблоны интеллектуального поиска с машинным обучением (эффективный дизайн). Безусловно, мы значительно увеличиваем производительность наших анализов (клетки, а не лунки). Но инженерия штаммов исследует пространство огромной сложности — количество возможных комбинаций редактирования в дрожжевой ячейке превышает совокупную сложность шахмат, сёги и го, точно так же, как эти игры превосходят крестики-нолики. А биологические измерения стоят дорого (вспомните транскриптомику, метаболомику, протеомику и ферментацию в промышленных масштабах — каждая проба стоит тысячи долларов). Никакой мыслимой пропускной способности никогда не хватило бы для выборки этого практически бесконечного пространства. Очень важно разумно ограничить пространство дизайна.

Мы подходим к этой задаче как AlphaZero: во-первых, байесовская оптимизация — это основа для эффективного поиска в пространстве дизайна, аналогичная поиску по дереву в AlphaZero; Во-вторых, мы обучаем модели машинного обучения обрезать наименее перспективные ветви, избегая сломанной физиологии и распознавая ранние проблески конструкций штаммов-блокбастеров. Например, наша технология HCI может распознавать многие виды метаболической дисфункции. Благодаря нашему огромному и богатому набору данных мы можем обучать модели машинного обучения изучению биологических паттернов, которые можно передавать. Эффективный поиск Sestina и мощные модели объединяются в эффективную структуру проектирования, которая позволяет нам выбирать экспоненциально больше выигрышных проектов, требуя на порядки меньше экспериментов.

Заключение

Невероятный прогресс нашей компании во многом обусловлен упорядоченным сочетанием разнообразного опыта и передовых технологий. Например, наша платформа для обработки данных мирового уровня использует опыт наших сотрудников в Foresite Labs, наша платформа для разработки штаммов — результат нашего сотрудничества с Inscripta, а наша платформа ферментации — от наших партнеров из Culture Biosciences. Sestina Bio — это тигель, в котором сплавляется новое поколение синтетической биологии.

В заключение скажу, что меня привлекла синтетическая биология из-за огромного положительного влияния, которое она окажет на благополучие человека. Биология как производственная платформа может исцелить окружающую среду, улучшить здоровье и произвести революцию в сельском хозяйстве. Чтобы воплотить это видение в жизнь, мы сосредоточили всю свою деятельность на создании ресурсов данных и алгоритмов, необходимых для того, чтобы машинное обучение расцвело как инструмент инженерной жизни (рис. 2). Алгоритмы обучения помогут нам ориентироваться в сложном, многомерном, запутанном пространстве между тем, где мы находимся, и тем будущим, на которое мы надеемся.