Проблемы с кластеризацией данных при использовании Carrot2 API с Lingo3GClusteringAlgorithm

У меня был один сценарий, когда мне нужно было кластеризовать данные операционной системы. Фактические данные включают 151 пользователя, использующего Windows, 27 пользователей, использующих MAC, 5 пользователей, использующих Linux.

Один раз после кластеризации с помощью Carrot2 API с использованием Lingo3gClusteringAlgorithm. Получение результатов кластера, когда пользователи MAC OS 27, пользователи Linux 5 и, наконец, все пользователи Windows находятся в кластере других тем. Но было бы хорошо, если бы я выделил пользователей Windows в отдельный кластер. Итак, чтобы получить Windows как отдельный кластер, какие атрибуты кластеризации мне нужно настроить. В настоящее время используется только "combined-cluster-score-balance" со значением: 1,0. Любая помощь приветствуется


person Pavan    schedule 01.12.2016    source источник
comment
Carrot2 выполняет неконтролируемую текстовую кластеризацию, поэтому результаты никогда не будут идеальными. Если бы вы могли сделать свой набор данных доступным где-нибудь, мы могли бы проверить его, чтобы увидеть, возможна ли дальнейшая настройка.   -  person Stanislaw Osinski    schedule 05.12.2016
comment
Привет, @StanislawOsinski, извини за поздний ответ. Спасибо за вашу помощь. Вот ссылка, по которой я разместил данные pastebin.com/VgNUdjdM. Используя следующие конфиги (комбинированный баланс кластера, 1.0); (активный язык, АНГЛИЙСКИЙ); (максимальный размер кластера, 1,0); С алгоритмом кластеризации как Lingo3GClusteringAlgorithm.class   -  person Pavan    schedule 26.05.2017


Ответы (1)


И Carrot2, и Lingo3G являются механизмами кластеризации естественного текста. Вам понадобится как минимум дюжина документов, состоящих как минимум из абзаца текста, чтобы получить разумные результаты.

Глядя на ваши данные, текстовые поля содержат одно слово, которого слишком мало для успеха наших алгоритмов. Для ваших конкретных данных вам могут понадобиться некоторые общие алгоритмы кластеризации, подходящие для числовых и номинальных данных. Mahout и WEKA может быть хорошим началом.

person Stanislaw Osinski    schedule 29.05.2017
comment
Хорошо. Итак, есть ли возможность улучшить кластеризацию, добавив какие-либо конфиги поверх существующих на основе данных, которые я предоставил. - person Pavan; 30.05.2017
comment
К сожалению, нет, Carrot2 и Lingo3G неприменимы к вашим данным. Для их работы требуется как минимум абзац обычного текста. Отдельных слов недостаточно. - person Stanislaw Osinski; 31.05.2017