Документируйте классификацию с несколькими метками — где вы берете метки? Онтология?

Я знаком с методами интеллектуального анализа данных, но не так хорошо знаком с интеллектуальным анализом текста или веб-анализом.

Вот простая задача: классифицировать статьи по набору категорий. Допустим, я извлек текст статьи и обработал его.

Как и где вы берете категории - предопределенные метки? Можно ли подключить для этого онтологию, таксономию и сделать их настолько детализированными, насколько это необходимо? Задачей классификации будет многоуровневая классификация.

Используем ли мы в этом случае n-граммы для приблизительного сопоставления?

В настоящее время у меня есть темы и именованные объекты, извлеченные из текста. Могу ли я использовать для этого Vowpal Wabbit?


person mel    schedule 17.05.2014    source источник


Ответы (1)


Как и где вы берете категории - предопределенные метки?

Существует множество эталонных наборов текстовых данных с таксономической и онтологической информацией. Wordnet — один из таких популярных эталонных наборов данных, используемых в исследованиях по анализу текста. Это первая статья, посвященная использованию таксономии для получения семантическое сходство для анализа текста в Wordnet. . Это более свежий хороший документ, посвященный аналогичной цели.

Можно ли подключить для этого онтологию, таксономию и сделать их настолько детализированными, насколько это необходимо?

да. Существует подполе исследований, которое занимается достижением семантического сходства на основе таксономии и онтологии, существующих среди понятий (в данном случае понятий в текстовых документах). В этом статье представлен обзор и сравнительное исследование методов, которые ввести онтологию и таксономию для измерения сходства между документами. //можно детализировать по мере необходимости// — Да, вы можете это сделать, получив новую меру подобия, которая контролирует степень детализации. Этому посвящено множество научных работ. Этот документ является недавним примером.

Используем ли мы в этом случае n-граммы для приблизительного сопоставления?

Да, возможно, но в вышеупомянутых документах используются менее детализированные подходы, моделирующие концепции из документов. Большинство из них используют tf-idf, а не n-граммы терминов.

person Annamalai N    schedule 26.05.2014
comment
Спасибо за ответ, очень полезно начать с НЛП. - person mel; 20.06.2014
comment
@Annamalai N Не могли бы вы проверить ссылки на документы, которые вы упомянули, и, возможно, обновить их? - person RFNO; 01.08.2019