Bing/Google/Flickr API: как найти изображение для каждого из 150 000 японских предложений?

Я занимаюсь проектом по части речи и морфологическому анализу японских предложений. У каждого предложения будет своя веб-страница. Чтобы сделать эту страницу более наглядной, я хочу показать одну картинку, которая так или иначе связана с предложением. Например, для предложения «私は学生です» («Я студент») соответствующими изображениями будут изображения школы, учебника японского языка, студентов и т. д. Что у меня есть: пометка частями речи для каждого слово. Мой подход сейчас: используйте 2-3 существительных из каждого предложения и получайте первое изображение из результатов поиска с помощью Bing Images API. Примечание: вся обработка предложений до этого момента выполнялась на Java.


Есть пара вопросов: 1) что лучше (более богатый корпус и мощный поиск), API изображений Google, API изображений Bing, API Flickr и т. д. для поиска существительных на японском языке? 2) как выбрать самое важное существительное из предложения, чтобы выполнить запрос в системе поиска изображений, не занимаясь сложным моделированием темы и т. д.? Спасибо!


person Arman    schedule 05.05.2011    source источник


Ответы (2)


Я думал, вы начнете с того, что выберете любое существительное перед  は、が и を и отдадите им приоритет - возможно, в таком порядке.

Но это предполагает, что ваши теги частей речи достаточно хороши, чтобы правильно идентифицировать は=subject (поскольку я думаю, вы знаете, что は не всегда является маркером темы).

Я просмотрел кучу примеров предложений здесь, имея в виду эту технику, и нашел ее не менее хорошей. как можно было ожидать. За исключением случаев, когда ни один из них не используется, что является редкостью.

И такие предложения, как это, где вам нужно подумать о поиске で и существительного перед ним в случае, когда нет を или は. Потому что, если вы обратите внимание, слово 人 (люди) на самом деле ничего не говорит вам о том, о чем идет речь. Без правильного разбора контекста вы даже не знаете, является ли существительное человеком или людьми.

毎年 交通事故で 多くの人が 死にます (много людей ежегодно погибает в дорожно-транспортных происшествиях)

Но в принципе, не могли бы вы реализовать такую ​​систему типа приоритет/откат?

Кстати, я надеюсь, что все ваши предложения используют кандзи, или когда вы увидите はし (в одном из связанных предложений), вы не будете знать, показывать ли мост или палочки для еды - и показывать неправильный, вероятно, будет нехорошо.

person PandaWood    schedule 08.06.2011

японский WordNet содержит ссылки на OpenClipart изображения. Это может быть еще один соответствующий источник. Они описывают это в своей статье под названием «Улучшение японского WordNet».

person Nate Glenn    schedule 27.05.2011