Берт настроен на семантическое сходство

Я хотел бы применить точную настройку Берта для вычисления семантического сходства между предложениями. Я ищу на многих сайтах, но я почти не нашел об этом ниже по течению.

Я только что нашел тест STS. Интересно, могу ли я использовать набор данных эталонного теста STS для обучения тонкой настройки модели Берта и применить ее к моей задаче. Это разумно?

Насколько я знаю, существует множество методов вычисления сходства, включая косинусное сходство, корреляцию Пирсона, манхэттенское расстояние и т. Д. Как выбрать семантическое сходство?


person Chad    schedule 04.12.2019    source источник
comment
проверьте этот пакет pypi.org/project/similar-sentences   -  person Shankar Ganesh Jayaraman    schedule 16.04.2020


Ответы (2)


В качестве общего замечания я хочу подчеркнуть, что этот тип вопросов может не рассматриваться по теме в Stackoverflow, см. Как спросите. Однако есть связанные сайты, которые могут быть лучше для такого рода вопросов (без кода, теоретический PoV), а именно AI Stackexchange или Перекрестная проверка.

Если вы посмотрите на довольно популярную статью в поле Мюллера и Тьягараджана, которое занимается изучением подобия предложений на LSTM, они используют тесно связанный набор данных (набор данных SICK), который также проводится в рамках конкурса SemEval и проводится вместе с эталонным тестом STS в 2014 году.

Любой из них должен быть разумным набором для точной настройки, но STS работает уже несколько лет, поэтому объем доступных обучающих данных может быть больше.

В качестве отличного учебника по этой теме я также настоятельно рекомендую статью Адриена Зига на Medium (см. здесь, к которому прилагается ссылка на GitHub.

Что касается семантического сходства, я бы сказал, что вам лучше выполнить тонкую настройку (или обучение) нейронной сети, так как большинство классических мер сходства, о которых вы упомянули, больше внимания уделяют сходству токенов (и, следовательно, синтаксическому сходству, хотя даже не что обязательно). С другой стороны, семантическое значение может сильно различаться для одного слова (может быть, отрицание или поменяемая местами позиция двух слов в предложении), что трудно интерпретировать или оценить с помощью статических методов.

person dennlinger    schedule 04.12.2019
comment
Спасибо за помощь. Я не знаком с этой платформой. Я еще раз проверю правила запроса. - person Chad; 04.12.2019
comment
Тут меня настигло мое плохое форматирование. Я расширю форматирование как можно скорее - person dennlinger; 04.12.2019
comment
проверьте этот документ с набором данных, настроенный Берт на предмет семантического сходства arxiv.org/abs/2004.10349 - person white_terminal; 29.04.2020

Кроме того, если вы хотите получить бинарный вердикт (да / нет для «семантически подобного»), BERT был фактически протестирован для этой задачи с использованием MRPC (Microsoft Research Paraphrase Corpus). Репозиторий google github https://github.com/google-research/bert включает некоторые примеры требует этого, см. --task_name = MRPC в разделе Задачи классификации предложений (и пар предложений).

person Igor    schedule 04.12.2019
comment
У HuggingFace есть пример и точная настройка BERT на MRPC здесь - github.com/huggingface/transformers/ дерево / мастер / примеры - person Adnan S; 05.12.2019
comment
Благодарю за совет. Я знаю это, но моя миссия не двоичная. Моя миссия состоит в том, чтобы у меня было 100 000 вопросов и 300 различных описаний предметов. Я хотел бы найти элемент для каждого вопроса. - person Chad; 05.12.2019