Поиск непохожих измерений в векторе признаков в Mahout

Если я использую алгоритм, основанный на сходстве, такой как оценка корреляции Пирсона, для сравнения двух векторов признаков, и я хочу знать те измерения/поля признаков, которые очень сильно различаются среди набора признаков, то какой алгоритм следует использовать? Я использую Mahout, библиотеку машинного обучения для Java.


person seahorse    schedule 13.03.2012    source источник
comment
Это не совсем вопрос программирования, не так ли?   -  person specialscope    schedule 13.03.2012
comment
Я использую Mahout, библиотеку машинного обучения на Java.   -  person seahorse    schedule 13.03.2012
comment
Если вы хотите получить отзыв здесь, вы должны упомянуть об этом в своем вопросе и, возможно, также опубликовать фрагмент кода, над которым вы работаете.   -  person specialscope    schedule 13.03.2012
comment
что именно вы хотите сделать? Найти сходство между данными в 2 векторах?   -  person Adrian    schedule 13.03.2012
comment
@ Адриан - ниже я подробно объяснил Шону Оуэну   -  person seahorse    schedule 13.03.2012


Ответы (1)


Ну, это будет просто размерность, в которой два вектора различаются больше всего — в которой абсолютная величина разницы значений векторов в измерении будет наибольшей. Это действительно все, что вы имеете в виду, или вы ищете что-то более тонкое?

person Sean Owen    schedule 13.03.2012
comment
Хорошо, скажем, у меня есть fv1, fv2, fv3, fv4 и fv5 в качестве векторов признаков, которые должны быть очень похожими. Теперь для вектора признаков 2 = fv2 (скажем) мне нужно найти, какие измерения неудобны или имеют большой разброс несходства по сравнению с другими измерениями. Для этого я хочу сравнить fv2 со всеми другими векторами признаков, а затем найти ответ. Итак, мне нужно рассчитать среднюю абсолютную разницу по всем векторам или есть какая-то лучшая статистика? - person seahorse; 13.03.2012
comment
Абсолютное отличие от среднего допустимо; Я мог бы предложить что-то более нормализованное, например, z-значение — просто количество стандартных отклонений от среднего значения. - person Sean Owen; 13.03.2012