Я хочу разработать приложение на основе Java для сопоставления синонимов с уникальным кодом или словом. Например, в медицинских терминах слова heart attack
или cardiac arrest
и т. д. означают одно и то же. Итак, я хочу создать базу данных (не обязательно RDBMS) для хранения таких сопоставлений. Такие сопоставления должны быть добавлены/изменены или удалены позже.
Основная цель состоит в том, чтобы разработать приложение для семантического сопоставления сущностей.
Мой ввод будет похож на фразу из двух или трех слов, и он будет сопоставлен со стандартным кодом. например, сердечный приступ и остановка сердца сопоставлены с кодом заболевания HA50122445. Завтра, если я найду новую фразу, например воспаление миокарда, я хочу сопоставить ее с кодом HA50122445.
Я просмотрел Apache Lucene, но он предназначен для интеллектуального анализа текста с приоритетом на основе ключевых слов поиска. Мои требования похожи на Wordnet. Является ли база данных Wordnet редактируемой или модифицируемой? Мои исследования говорят, что нет. Это правильно ?
Было бы очень полезно, если бы вы могли направить меня. Спасибо