Топологический анализ данных — с чего начать

Недавно я столкнулся с «топологическим анализом данных» (TDA) как с уникальным способом визуализации больших наборов данных. Вот статья из Стэнфорда с примером вывода ближе к концу https://research.math.osu.edu/tgda/mapperPBG.pdf.

Я хотел бы получить аналогичные результаты, но мне трудно найти исполняемый код в сети, где вы устанавливаете пакет, загружаете образцы данных, а затем выполняете несколько строк (например, http://scikit-learn.org/ примеры). Я предпочитаю язык Python, но могу использовать и R.

Кто-нибудь смог добиться успеха с TDA, и если да, то какие советы о том, как запустить код?


person Ben    schedule 06.08.2014    source источник
comment
Ссылка мертва :-(   -  person vonjd    schedule 15.04.2015
comment
Если бы один из ответов был полезен, было бы здорово, если бы вы могли его принять - спасибо :-)   -  person vonjd    schedule 21.08.2015


Ответы (3)


Вышел новый пакет r:

TDA: статистические инструменты для топологического анализа данных
Этот пакет предоставляет инструменты для статистического анализа постоянной гомологии и кластеризации плотности.

Очень хорошо написанную виньетку можно найти здесь: Введение в пакет R ТДА

Абстрактный

Мы представляем краткое руководство и введение в использование TDA пакета R, который предоставляет некоторые инструменты для топологического анализа данных. В частности, он включает в себя реализации функций, которые при наличии некоторых данных предоставляют топологическую информацию о базовом пространстве, такую ​​как функция расстояния, расстояние до меры, оценка плотности kNN, оценка плотности ядра и расстояние ядра. Существенные топологические особенности наборов подуровней (или наборов суперуровней) этих функций могут быть определены количественно с помощью постоянной гомологии. Мы предоставляем интерфейс R для эффективных алгоритмов библиотек C++ GUDHI, Dionysus и PHAT, включая функцию для постоянной гомологии фильтрации Рипса и одну для постоянной гомологии наборов подуровней (или наборов суперуровней) произвольных функций, оцениваемых по сетка точек. Значимость признаков в результирующих диаграммах постоянства можно проанализировать с помощью функций, которые реализуют методы, описанные в Fasy, Lecci, Rinaldo, Wasserman, Balakrishnan, and Singh (2014), Chazal, Fasy, Lecci, Rinaldo, and Wasserman (2014c). и Шазаль, Фази, Леччи, Мишель, Ринальдо и Вассерман (2014a). Пакет R TDA также включает в себя реализацию алгоритма кластеризации плотности, который позволяет нам идентифицировать пространственную организацию вероятностной массы, связанной с функцией плотности, и визуализировать ее с помощью дендрограммы, кластерного дерева.

person vonjd    schedule 15.04.2015
comment
У меня были хорошие результаты с этим, хотя я раньше не использовал R. - person James Griffin; 01.05.2015

Для визуализации у Cytoscape есть версии для ПК и браузера.

Он предлагает две библиотеки Python (Bioconductor и igraph) здесь для создания.

person SerkanSerttop    schedule 04.11.2014

Dionysus — это реализация C++, вычисляющая постоянную гомологию. Он имеет удобную оболочку PyBind, что позволяет довольно легко экспериментировать с ним в python.

Недавно появилась версия 2 Dionysus, в которой есть возможности построения графиков, что должно упростить погружение. Посмотрите здесь:

http://www.mrzv.org/software/dionysus2/tutorial/plotting.html

Из общего набора данных, находящегося в евклидовом пространстве (например, 2D или 3D-массивы), построение комплекса Rips, вероятно, является хорошей отправной точкой, это объясняется здесь:

http://www.mrzv.org/software/dionysus2/tutorial/rips.html

person Tarje Bargheer    schedule 25.04.2018