Как анализ топологических данных может помочь в открытии новых представлений о деревьях мозговых артерий. Соавтор записи в блоге: Р. Андреева.

Вступление

Изменения в сети кровеносных сосудов (также известной как сосудистая сеть) часто являются первыми признаками развития таких заболеваний, как рак или инсульт. Если мы сможем разработать методы, направленные на выявление этих изменений, мы будем лучше оснащены для раннего лечения этих состояний и разработки профилактических методов лечения. Изучение сосудистой сети головного мозга имеет решающее значение для прогнозирования инсульта и рака мозга. С возрастом сосудистая сеть головного мозга изменяется, и важно уметь распознавать и количественно определять такие изменения.

Основная методологическая направленность данной работы - топологический анализ данных (TDA). Этот довольно новый метод извлекает числовые характеристики, которые количественно определяют форму облаков точек. Облако точек может иметь различные связанные компоненты, петли, пустоты… Все эти своеобразные структуры могут быть извлечены с помощью методов TDA. Учитывая геометрическую природу нашей задачи (подробнее см. Ниже), это кажется очень естественным выбором.

Если вы новичок в TDA, я рекомендую вам прочитать следующий блог как введение в начало работы с Giotto-tda [4].

С этой целью мы хотели бы сначала изучить, как сосудистая сеть мозга изменяется с возрастом у людей без сопутствующих заболеваний мозга. Было обнаружено, что сосудистая сеть головного мозга коррелирует с возрастом с помощью 2 различных методов анализа - статистического и TDA. Методы первого показали, что возраст коррелирует с общей длиной артерии [3], что составляет основу нашей модели эталонной классификации, вместе с возрастом, полом и рукой испытуемых. С другой стороны, TDA была полезна для определения корреляции между возрастом и положением артерий в пространстве таким образом, что статистический анализ не мог обнаружить [2]. Мы сосредоточимся на вычислении диаграмм устойчивости деревьев мозговых артерий и построении модели машинного обучения, способной различать деревья мозговых артерий, принадлежащих к 2 разным возрастным группам.

Пример реконструированного изображения дерева артерии показан ниже (изображение взято из [2]).

Блокнот Jupyter с подробными вычислениями, связанными с этим сообщением в блоге, можно найти здесь.

Обзор задачи

В этом исследовании мы сравниваем артерии между непатологическими случаями 98 головного мозга, принадлежащих людям в возрасте от 18 до 79 лет.

Мы исследуем облака точек деревьев мозговых артерий, выделим топологические особенности, которые позволят нам количественно оценить петли и ветвления на нескольких уровнях, и обучим классификатора различать 2 возрастные группы: группа 0 с людьми моложе 45 лет и группа 1 с людьми. старше 45 лет. В [2] и в этом блоге было высказано предположение, что топологические особенности могут помочь в определении возраста мозга человека, поскольку у молодых людей общая длина артерии значительно больше и больше петель в ней. Giotto-tda [4] играет важную роль в этом анализе для построения, расчета диаграмм устойчивости и преобразования их в полезные векторы признаков для последующего анализа машинного обучения.

Набор данных

Набор данных можно найти здесь. Он состоит из 98 деревьев артерий, которые являются результатом применения алгоритма отслеживания трубки к трехмерным изображениям головного мозга с помощью магнитно-резонансной ангиографии (МРА). Каждое дерево состоит из ок. 120000 вершин, ветвей и ребер. В целях этого анализа мы использовали только облако точек всех вершин для начальной визуализации, и мы произвольно уменьшили дискретизацию до 500 вершин на дерево, чтобы сократить время вычислений. Метки в наборе данных зависят от возраста субъекта: метка 0 означает, что субъект моложе 45 лет, а метка 1 означает, что субъект старше 45 лет.

Сравнивая визуально 2 графика, мы замечаем, что левое дерево 20-летнего субъекта выглядит очень плотным с образованием многочисленных петель, в то время как правое дерево пожилого субъекта более разреженное с менее очевидными петлями. Это приводит нас к развитию интуиции, что вычисление устойчивой гомологии в измерении 0, которое считает количество связанных компонентов, и устойчивой гомологии в измерении 1, которое считает количество петель, может быть полезно для различения двух мозгов.

Стойкая гомология

Ядром топологического анализа данных являются диаграммы персистентности. Эти сложные двумерные диаграммы описывают топологические свойства облака точек масштабно-инвариантным образом. Мы продолжаем вычислять диаграммы устойчивости только для размерности гомологии 0 (которая учитывает компоненты связности) и 1 (которая связана с одномерными петлями), так как группы более высоких гомологий требуют много времени для вычислений.

Что касается гомологии в размерности 1, мы можем видеть, что в случае более молодого мозга есть больше точек, более удаленных от диагонали. Это означает, что петель больше, а структура артерий петля, чем у более старого мозга.

После этого мы конвертируем каждую диаграмму в двумерный вектор с постоянной энтропией [1]. Это генерирует 2 топологические характеристики для каждой устойчивой диаграммы: одна постоянная энтропия для каждого измерения гомологии.

Таким образом, мы можем создать простую числовую характеристику из диаграммы устойчивости мозга. На приведенном выше графике нет каких-либо отдельных кластеров: в результате мы не можем ожидать высокой производительности классификации, основанной только на этих двух топологических характеристиках. Мы могли бы попробовать добавить больше топологических функций, чтобы улучшить производительность.

Интеграция с машинным обучением

Благодаря топологии мы смогли создать новые функции, такие как постоянная энтропия, о которой говорилось выше. Эти функции связаны с каждой записью данных: это означает, что мы можем легко увеличить количество функций в наборе данных с помощью Giotto-tda [4]!

Мы решили добавить четыре различных топологических признака: они называются амплитудами. Амплитуда устойчивой диаграммы является результатом вычисления расстояния - в данной метрике - до такой биграммы по пустой диаграмме. В зависимости от того, какая метрика используется в пространстве диаграммы, такое значение амплитуды может отличаться. Мы рассматриваем четыре различных показателя для вычисления вектора амплитуд для каждой диаграммы устойчивости:

"bottleneck", "wasserstein", "landscape", "persistence_image"

Мы также добавляем, чтобы завершить этап проектирования функций, количество недиагональных точек на одно измерение гомологии. Наша интуиция опирается на геометрическую природу проблемы: мы считаем, что для улучшения результатов задач классификации мы можем добавить топологические особенности в набор данных. Посмотрим, что мы можем сделать!

Мы используем RandomForestClassifier для классификации после этапа разработки признаков. Итоговая точность классификации:

0.735

Сравнение с разумным эталоном

Мы сравниваем классификатор с топологическими объектами с простой базовой линией, основанной на геометрической мере - общей длине артерии. Мы добавляем еще две функции, а именно пол и рукопожатие (тенденция использовать правую или левую руку более естественно, чем другую), которые у нас есть для набора данных.

Точность того же RandomForestClassifier составляет:

0.714

Мы отмечаем увеличение производительности топологических функций на 2% по сравнению с базовой линией. Однако следует отметить, что исходный набор данных содержал более 120 тыс. Точек. Выбор к субдискретизации был сделан по вычислительным причинам, чтобы код мог выполняться менее чем за 15 минут. Были предприняты попытки с 3000, 2000, 1000 очков, но время на это было значительно больше. Ожидается, что результаты будут лучше, когда у нас будет больше точек данных.

Мы также можем добавить больше топологических функций, попробовать другие классификаторы и выполнить настройку гиперпараметров, а также использовать такие методы, как усиление для повышения производительности.

Заключение

В этом сообщении мы получили интересные результаты относительно взаимосвязи между деревьями мозговых артерий и возрастом и разработали полезную модель классификации, которая различает мозг младшего и старшего возраста с точностью 73,4%. Топологические особенности немного превосходят геометрическое измерение общей длины мозговой артерии в задаче классификации по возрасту. Однако мы используем только небольшую подвыборку из 500 доступных вершин (из 120 тыс.), Что говорит о том, что может быть более точная классификация, если в нее будет включено больше точек. Было бы интересно посмотреть, повлияет ли добавление дополнительных точек на облака точек на точность и насколько. Предостережение будет заключаться в более длительном времени для создания полного набора диаграмм устойчивости, примерно с 1 минутой на диаграмму для облака точек из 3000 точек, что приведет к 90 минутам для всего набора данных. Можно было бы изучить дополнительные методы ускорения этого процесса, а также более точную процедуру выборки, поскольку мы использовали случайную подвыборку. Более того, в дальнейшем анализе мы должны также вычислить гомологию размерности 2, так как это может дать дополнительную информацию.

Мы рассмотрели влияние старения на артерии головного мозга здоровых людей. В будущей работе клинический интерес представляет разработка топологических методов для обнаружения аномалий мозга, связанных с такими состояниями мозга, как инсульт и рак мозга. Giotto-tda играл центральную роль в этом анализе [4], и его можно было использовать для дальнейшего добавления дополнительных топологических характеристик и полезных интерпретаций связи биологических биомаркеров с топологией мозговых артерий.

использованная литература

[1] N. Atienza et al., Постоянная энтропия: масштабно-инвариантная топологическая статистика для анализа расположения ячеек, ArXiv1902.06467

[2] П. Бендич и др., Постоянный гомологический анализ деревьев мозговых артерий, PMID: 27642379

[3] J. Gutierrez et al., Старение артерий головного мозга и его связь с деменцией Альцгеймера, Неврология. 2016 Apr 19; 86 (16): 1507–1515.

[4] Г. Таузин и др., Giotto-tda: набор инструментов для анализа топологических данных для машинного обучения и исследования данных, ArXiv2004.02551