Проклятие высокой размерности постоянно присутствует в сообществе больших данных. По сути, это идея о том, что у нас слишком много функций и недостаточно примеров, чтобы действительно сказать, какая функция важна, а какая нет для нашей задачи.

Вот почему весь спектр знаний эволюционировал вокруг необходимости разработки инструментов, которые сокращают количество измерений, более поддающихся управлению нашими алгоритмами и визуализируемых людьми. Существуют распространенные методы, такие как анализ независимых и принципиальных компонентов или t-SNE, которые позволяют исследователям извлекать важные функции из многомерного набора данных.

Эти исследователи недавно сообщили об интересном методе, который улучшает кластеризацию K-средних, чтобы гарантировать, что извлеченные признаки могут различать классы.

Следующий рисунок иллюстрирует это:

Как видите, есть 3 отдельных кластера, которые они пытаются сегментировать. Первые два метода хорошо находят признаки, которые их сегментируют. Однако в их усовершенствованном методе под названием «Специфические для кластера» разреженные K-средние они могут вычислительным образом извлекать признаки, которые хорошо группируют 3 группы вдоль осей признаков 1 и 2.

Они применяют этот метод к набору данных экспрессии генов лейкемии и сравнивают свой алгоритм с другими алгоритмами кластеризации. Из 5135 генов их метод извлек 99 выбранных генов, которые обеспечили наилучшие результаты для задач трехсторонней кластеризации. 7 из этих 99 генов были частью 11 сигнатурных генов, которые были основной истиной, в результате чего p-значение составило 2,5e-10.

Подобные методы могут позволить исследователям правильно определить, какие гены являются важными узлами в сети, влияющей на определенный фенотип заболевания, для будущих исследований.

Спасибо за чтение.