В качестве общего замечания я хочу подчеркнуть, что этот тип вопросов может не рассматриваться по теме в Stackoverflow, см. Как спросите. Однако есть связанные сайты, которые могут быть лучше для такого рода вопросов (без кода, теоретический PoV), а именно AI Stackexchange или Перекрестная проверка.
Если вы посмотрите на довольно популярную статью в поле Мюллера и Тьягараджана, которое занимается изучением подобия предложений на LSTM, они используют тесно связанный набор данных (набор данных SICK), который также проводится в рамках конкурса SemEval и проводится вместе с эталонным тестом STS в 2014 году.
Любой из них должен быть разумным набором для точной настройки, но STS работает уже несколько лет, поэтому объем доступных обучающих данных может быть больше.
В качестве отличного учебника по этой теме я также настоятельно рекомендую статью Адриена Зига на Medium (см. здесь, к которому прилагается ссылка на GitHub.
Что касается семантического сходства, я бы сказал, что вам лучше выполнить тонкую настройку (или обучение) нейронной сети, так как большинство классических мер сходства, о которых вы упомянули, больше внимания уделяют сходству токенов (и, следовательно, синтаксическому сходству, хотя даже не что обязательно). С другой стороны, семантическое значение может сильно различаться для одного слова (может быть, отрицание или поменяемая местами позиция двух слов в предложении), что трудно интерпретировать или оценить с помощью статических методов.
person
dennlinger
schedule
04.12.2019