Как использовать тег PoS в качестве функции для обучения данных с помощью наивного байесовского классификатора?

Я изучаю, как извлекать ключевые фразы из документа для моей диссертации.

В своем исследовании я использовал машинное обучение наивного байесовского классификатора для создания обучающей модели признаков термина-кандидата. Одной из функций является тег PoS, я думаю, что эта функция важна для указания того, является ли термин ключевой фразой или нет.

Но вводом наивного байесовского (NB) классификатора являются числа, а тегом PoS является строка.

Поэтому я не знаю, как представить функцию тега PoS в виде числа, чтобы она стала входной функцией для классификатора NB.

Пожалуйста, помогите мне дать ваш совет.

Спасибо и с уважением, Хиен Су


person user1266236    schedule 27.06.2015    source источник


Ответы (1)


Вы можете рассматривать тег POS как слово. Затем вы можете использовать POS-униграмму, биграмму или триграмму в качестве функции.

Пример:

Они/ПРП отказывают/ВБП в/В разрешении/ВБ нас/ПРБ в/получении/ВБ/ДТ отказывают/НН в разрешении/НН.

Если взять триграммы POS в качестве признаков. Вы можете построить вектор со следующими функциями.

Feature          Value
(PRP,VBP,TO)      1
(VBP,TO,VB)       1 
(TO,VB,PRB)       1

и так далее.

Вы также можете использовать значение tf-idf для функций POS.

person Saurabh Saxena    schedule 03.07.2015