Если я использую алгоритм, основанный на сходстве, такой как оценка корреляции Пирсона, для сравнения двух векторов признаков, и я хочу знать те измерения/поля признаков, которые очень сильно различаются среди набора признаков, то какой алгоритм следует использовать? Я использую Mahout, библиотеку машинного обучения для Java.
Поиск непохожих измерений в векторе признаков в Mahout
comment
Это не совсем вопрос программирования, не так ли?
- person specialscope   schedule 13.03.2012
comment
Я использую Mahout, библиотеку машинного обучения на Java.
- person seahorse   schedule 13.03.2012
comment
Если вы хотите получить отзыв здесь, вы должны упомянуть об этом в своем вопросе и, возможно, также опубликовать фрагмент кода, над которым вы работаете.
- person specialscope   schedule 13.03.2012
comment
что именно вы хотите сделать? Найти сходство между данными в 2 векторах?
- person Adrian   schedule 13.03.2012
comment
@ Адриан - ниже я подробно объяснил Шону Оуэну
- person seahorse   schedule 13.03.2012
Ответы (1)
Ну, это будет просто размерность, в которой два вектора различаются больше всего — в которой абсолютная величина разницы значений векторов в измерении будет наибольшей. Это действительно все, что вы имеете в виду, или вы ищете что-то более тонкое?
person
Sean Owen
schedule
13.03.2012
Хорошо, скажем, у меня есть fv1, fv2, fv3, fv4 и fv5 в качестве векторов признаков, которые должны быть очень похожими. Теперь для вектора признаков 2 = fv2 (скажем) мне нужно найти, какие измерения неудобны или имеют большой разброс несходства по сравнению с другими измерениями. Для этого я хочу сравнить fv2 со всеми другими векторами признаков, а затем найти ответ. Итак, мне нужно рассчитать среднюю абсолютную разницу по всем векторам или есть какая-то лучшая статистика?
- person seahorse; 13.03.2012
Абсолютное отличие от среднего допустимо; Я мог бы предложить что-то более нормализованное, например, z-значение — просто количество стандартных отклонений от среднего значения.
- person Sean Owen; 13.03.2012