Я знаком с методами интеллектуального анализа данных, но не так хорошо знаком с интеллектуальным анализом текста или веб-анализом.
Вот простая задача: классифицировать статьи по набору категорий. Допустим, я извлек текст статьи и обработал его.
Как и где вы берете категории - предопределенные метки? Можно ли подключить для этого онтологию, таксономию и сделать их настолько детализированными, насколько это необходимо? Задачей классификации будет многоуровневая классификация.
Используем ли мы в этом случае n-граммы для приблизительного сопоставления?
В настоящее время у меня есть темы и именованные объекты, извлеченные из текста. Могу ли я использовать для этого Vowpal Wabbit?