Подходы к машинному обучению для наборов данных мутации рака

Информационные бюллетени NeurIPS 2019: обзор представленного нами исследования и его влияние на будущее

Обзор

Анализ соматических (ненаследственных) мутаций у всех онкологических больных может дать очень полезную информацию, которая имеет важное значение для развития исследований рака. Однако низкая частота большинства мутаций и разная частота мутаций у пациентов делает данные чрезвычайно сложными для статистического анализа. В результате данные о раке также трудно использовать: в задачах классификации, для кластеризации, для визуализации или для изучения полезной информации. Таким образом, создание низкоразмерных представлений профилей соматических мутаций, содержащих полезную информацию о ДНК раковых клеток, будет способствовать использованию таких данных в приложениях, которые будут способствовать развитию точной медицины.

В этой статье мы говорим об открытой проблеме обучения на основе соматических мутаций и исследуем два разных подхода: Flatsomatic, решение, которое использует вариационные автоэнкодеры (VAE) для создания скрытых представлений соматических профилей; и основанное на наборах обучение свойствам мутации.

Работа, проделанная в этой статье, показывает большой потенциал для обоих методов по отдельности, но мы также идем дальше и объединяем представления обоих методов. Мы считаем, что представленные методы могут иметь большое значение для будущих исследований и внедрения моделей, основанных на данных, в прецизионную онкологию.

Низкая частота мутаций рака и разная частота этих мутаций у разных пациентов делают наборы данных по раку чрезвычайно сложными для статистического анализа.

Как это работает?

Наше исследование началось с создания эмбеддингов с использованием вариационного автоэнкодера (VAE) - моделей машинного обучения без учителя, способных изучать скрытые закономерности в данных - на основе известных позиционных характеристик мутаций. Целью этого было зафиксировать основные правила и закономерности среди тысяч онкологических больных и создать менее разреженное представление этих данных.

Мы также использовали подход, основанный на статье «Глубокие наборы» [1], который рассматривает мутации у каждого пациента как набор. Мы использовали этот подход для построения классификационной модели с использованием нескольких других характеристик мутаций (включая частоту вариативных аллелей (VAF), воздействие, последствия, пути и т. Д.); Затем мы извлекли вложения из модели после обучения.

Наш подход уникален, потому что затем мы объединили два представления данных о мутациях, созданных этими моделями, и использовали эти новые данные для задачи классификации.

Объединение представлений позволило нам использовать как позиционные, так и непозиционные функции мутации, тем самым создавая более полезные и значимые представления. Наша низкоразмерная версия данных работает лучше, чем необработанные данные и два отдельных представления в задаче классификации, которая позволяет прогнозировать тип рака у пациента. Таким образом, этот (комбинированный) подход обещает более содержательное представление данных о мутациях рака.

Каково влияние?

Использование множественных мутаций у онкологических больных может сделать данные более значимыми, однако из-за различной частоты некоторых характеристик (например, количества мутаций у каждого больного раком) наборы данных могут быть большими, разреженными и, следовательно, ограниченными для обучения.

Работа, которую мы представили на NeurIPS, многообещающа в создании значимых представлений данных, которые имеют меньшую размерность, чем необработанные данные, и не теряют ценную информацию. Мы нацелены на CCG.ai использовать эти представления для разработки алгоритмов машинного обучения, которые приблизят нас к истинной точной онкологии.

Узнать больше

В этом блоге представлен общий обзор статьи, представленной на семинаре NeurIPS 2019: Наборы и перегородки.

Чтобы узнать больше об этом исследовании, прочтите статью полностью. Чтобы узнать, почему мы считаем, что все пациенты заслуживают точной онкологии, прочтите этот пост в блоге.

Всего на NeurIPS 2019 мы опубликовали 5 статей. Ознакомьтесь с нашим пресс-релизом, чтобы узнать о других наших достижениях в области машинного обучения.

Автор Ясмин Кусад, исследователь машинного обучения в CCG.ai
Под редакцией Белль Тейлор, менеджера по стратегическим коммуникациям и партнерствам CCG.ai
Благодарим Жоффруа Дюбурга-Фелонно, Гарри Клиффорда и Доминика Киркхема за ценные обсуждения.

Использованные источники:

[1] Глубокие сеты, Манзил Захир и др.