Корейский, тайский и индонезийский POS-тегер

Может ли кто-нибудь порекомендовать POS-тегер с открытым исходным кодом для корейского, индонезийского, тайского и вьетнамского языков?

Которые я могу использовать для пометки корпусных данных, которые у меня есть в настоящее время. (например, стэнфордская почта)

Если вы разработчик и хотите поделиться и позволить мне протестировать POS-теггер, я тоже не против.

С некоторыми изменениями вывода я пометил вьетнамские данные POS тегом jvntextpro.

Но я все еще хотел бы больше информации о корейских, индонезийских и тайских тегах POS.


person alvas    schedule 12.03.2011    source источник


Ответы (2)


После вики acl: корейский морфологический анализатор и тегирование частей речи

Я бы начал просматривать веб-сайты исследовательских отделов НЛП в Корее, Таиланде и Корее. На этой странице вы найдете ссылки на исследовательские отделы.

Удачи!

ОБНОВЛЕНИЕ: OpenNLP имеет тайский PoS. Вот модели: http://opennlp.sourceforge.net/models/thai/ для Теггер PoS opennlp.

person Skarab    schedule 14.04.2011
comment
isoft.postech.ac.kr/Course/CS730b/2005/index. html я нашел корейский тег на этой странице. теперь тайский таггер отсутствует. ха-ха… спасибо за страницу, но нам нужно лучшее сопоставление ресурсов НЛП. - person alvas; 16.04.2011

Вы можете попробовать RDRPOSTagger: надежный, простой в использовании и независимый от языка набор инструментов для POS и морфологических пометка.

(Язык программирования: Python и Java)

RDRPOSTagger обеспечивает высокую производительность как в процессе обучения, так и в процессе тегирования. Кроме того, RDRPOSTagger обеспечивает очень конкурентоспособную точность по сравнению с современными результатами. См. экспериментальные результаты, включая скорость работы и точность тегов, в этой статье.

RDRPOSTagger теперь поддерживает предварительно обученные модели POS и морфологических тегов для 13 языков, включая тайский и вьетнамский.

person NQD    schedule 20.11.2015