Отличный способ упростить анализ данных — описать, как он находит закономерности или формы в данных. Аналитическая модель обычно представляет собой уравнение, которое предполагает, что данные «формируются» в определенный день, и с помощью указанного уравнения возможно прогнозирование или классификация точки в этой форме. Одна из самых больших проблем анализа данных заключается в том, что вы должны убедиться, что сравниваете яблоки с яблоками. Если вы строите предположения о подсегменте ваших данных по всему набору дат, вы можете получить менее чем желаемые результаты. В предыдущих постах я кратко рассказал о методах, позволяющих выявлять аномалии в данных. Топологический анализ данных (TDA) набирает популярность в этой сфере. Но что это?

Что такое TDA?

В математике, согласно Британской энциклопедии, топология описывается как «ветвь, иногда называемая «геометрией резинового листа», в которой два объекта считаются эквивалентными, если они могут непрерывно деформироваться друг в друга посредством таких движений в пространстве, как изгибание, скручивание, растягиваться и сжиматься, не допуская разрыва или склеивания частей». Это одновременно очень абстрактно и многословно. Для кого-то, кто не знаком с космосом, как я, это вызвало больше вопросов, чем ответов. Я помню из 9-го класса по науке о Земле и космосе, что топографические карты визуализируют физические ландшафты, представляя участки или области на карте, которые находятся на одной высоте.

Если подумать, для анализа данных нам нужно представить что-то подобное. Во-первых, нам нужно понять, какое место занимает любая точка в нашем наборе данных в соревновании всей вселенной данных, чтобы затем мы могли провести анализ этой точки по сравнению с аналогичными точками.

Зачем использовать TDA?

TDA удобен при попытке извлечь смысл из необычных шаблонов данных. Обычно это может означать:

- Большое количество закономерностей для поиска в данных

- Большое количество зависимостей указанных паттернов

- Большой набор данных в целом

Этот метод может помочь определить «локальные» закономерности в данных. Как упоминалось ранее, мы анализируем данные математически, мы можем получать формы из наборов данных и, развивая их, понимать, что форма или шаблон имеют значение. Когда мы говорим о шаблонах, мы можем называть их функциями или, в более общем смысле, столбцами. Помимо этого, существуют определенные свойства данных, которые можно анализировать.

Каковы положительные стороны TDA?

  • Нет предвзятого мнения о том, какими должны быть узоры.
  • - Может помочь эффективно выполнить локализацию или сегментацию данных
  • - Может быть дополнен методами уменьшения размерности, чтобы сделать данные менее сложными
  • - Может извлекать информацию из Tata, которая является неполной или зашумленной

Как можно применить TDA?

Согласно проекту scikit-tda, некоторые формы данных, которые можно анализировать, включают:

  • нелинейность и линейность
  • кластеры
  • вспышки
  • петли

Каковы текущие недостатки?

- Производительность: некоторые алгоритмы могут потребовать очень больших вычислений. Алгоритм эффективен при меньших наборах данных

Что дальше?

Я буду продолжать исследовать эту тему и обновлять ее соответствующим образом. И проведите дополнительные исследования стойкой гомологии. Если вы являетесь экспертом в этой области и у вас есть комментарии или отзывы, дайте мне знать!