Проблемы с кластеризацией данных при использовании Carrot2 API с Lingo3GClusteringAlgorithm

У меня был один сценарий, когда мне нужно было кластеризовать данные операционной системы. Фактические данные включают 151 пользователя, использующего Windows, 27 пользователей, использующих MAC, 5 пользователей, использующих Linux.

Один раз после кластеризации с помощью Carrot2 API с использованием Lingo3gClusteringAlgorithm. Получение результатов кластера, когда пользователи MAC OS 27, пользователи Linux 5 и, наконец, все пользователи Windows находятся в кластере других тем. Но было бы хорошо, если бы я выделил пользователей Windows в отдельный кластер. Итак, чтобы получить Windows как отдельный кластер, какие атрибуты кластеризации мне нужно настроить. В настоящее время используется только "combined-cluster-score-balance" со значением: 1,0. Любая помощь приветствуется

carrot

Pavan 01.12.2016 источник

comment

Carrot2 выполняет неконтролируемую текстовую кластеризацию, поэтому результаты никогда не будут идеальными. Если бы вы могли сделать свой набор данных доступным где-нибудь, мы могли бы проверить его, чтобы увидеть, возможна ли дальнейшая настройка. - Stanislaw Osinski 05.12.2016

comment

Привет, @StanislawOsinski, извини за поздний ответ. Спасибо за вашу помощь. Вот ссылка, по которой я разместил данные pastebin.com/VgNUdjdM. Используя следующие конфиги (комбинированный баланс кластера, 1.0); (активный язык, АНГЛИЙСКИЙ); (максимальный размер кластера, 1,0); С алгоритмом кластеризации как Lingo3GClusteringAlgorithm.class - Pavan 26.05.2017

Ответы (1)

arrow_upward
0
arrow_downward

И Carrot2, и Lingo3G являются механизмами кластеризации естественного текста. Вам понадобится как минимум дюжина документов, состоящих как минимум из абзаца текста, чтобы получить разумные результаты.

Глядя на ваши данные, текстовые поля содержат одно слово, которого слишком мало для успеха наших алгоритмов. Для ваших конкретных данных вам могут понадобиться некоторые общие алгоритмы кластеризации, подходящие для числовых и номинальных данных. Mahout и WEKA может быть хорошим началом.

Stanislaw Osinski 29.05.2017

comment

Хорошо. Итак, есть ли возможность улучшить кластеризацию, добавив какие-либо конфиги поверх существующих на основе данных, которые я предоставил. - Pavan; 30.05.2017

comment

К сожалению, нет, Carrot2 и Lingo3G неприменимы к вашим данным. Для их работы требуется как минимум абзац обычного текста. Отдельных слов недостаточно. - Stanislaw Osinski; 31.05.2017

Проблемы с кластеризацией данных при использовании Carrot2 API с Lingo3GClusteringAlgorithm

Ответы (1)

Вопросы по теме