Берт настроен на семантическое сходство

Я хотел бы применить точную настройку Берта для вычисления семантического сходства между предложениями. Я ищу на многих сайтах, но я почти не нашел об этом ниже по течению.

Я только что нашел тест STS. Интересно, могу ли я использовать набор данных эталонного теста STS для обучения тонкой настройки модели Берта и применить ее к моей задаче. Это разумно?

Насколько я знаю, существует множество методов вычисления сходства, включая косинусное сходство, корреляцию Пирсона, манхэттенское расстояние и т. Д. Как выбрать семантическое сходство?

Chad 04.12.2019 источник

comment

проверьте этот пакет pypi.org/project/similar-sentences - Shankar Ganesh Jayaraman 16.04.2020

Ответы (2)

arrow_upward
1
arrow_downward

В качестве общего замечания я хочу подчеркнуть, что этот тип вопросов может не рассматриваться по теме в Stackoverflow, см. Как спросите. Однако есть связанные сайты, которые могут быть лучше для такого рода вопросов (без кода, теоретический PoV), а именно AI Stackexchange или Перекрестная проверка.

Если вы посмотрите на довольно популярную статью в поле Мюллера и Тьягараджана, которое занимается изучением подобия предложений на LSTM, они используют тесно связанный набор данных (набор данных SICK), который также проводится в рамках конкурса SemEval и проводится вместе с эталонным тестом STS в 2014 году.

Любой из них должен быть разумным набором для точной настройки, но STS работает уже несколько лет, поэтому объем доступных обучающих данных может быть больше.

В качестве отличного учебника по этой теме я также настоятельно рекомендую статью Адриена Зига на Medium (см. здесь, к которому прилагается ссылка на GitHub.

Что касается семантического сходства, я бы сказал, что вам лучше выполнить тонкую настройку (или обучение) нейронной сети, так как большинство классических мер сходства, о которых вы упомянули, больше внимания уделяют сходству токенов (и, следовательно, синтаксическому сходству, хотя даже не что обязательно). С другой стороны, семантическое значение может сильно различаться для одного слова (может быть, отрицание или поменяемая местами позиция двух слов в предложении), что трудно интерпретировать или оценить с помощью статических методов.

dennlinger 04.12.2019

comment

Спасибо за помощь. Я не знаком с этой платформой. Я еще раз проверю правила запроса. - Chad; 04.12.2019

comment

Тут меня настигло мое плохое форматирование. Я расширю форматирование как можно скорее - dennlinger; 04.12.2019

comment

проверьте этот документ с набором данных, настроенный Берт на предмет семантического сходства arxiv.org/abs/2004.10349 - white_terminal; 29.04.2020

arrow_upward
2
arrow_downward

Кроме того, если вы хотите получить бинарный вердикт (да / нет для «семантически подобного»), BERT был фактически протестирован для этой задачи с использованием MRPC (Microsoft Research Paraphrase Corpus). Репозиторий google github https://github.com/google-research/bert включает некоторые примеры требует этого, см. --task_name = MRPC в разделе Задачи классификации предложений (и пар предложений).

Igor 04.12.2019

comment

У HuggingFace есть пример и точная настройка BERT на MRPC здесь - github.com/huggingface/transformers/ дерево / мастер / примеры - Adnan S; 05.12.2019

comment

Благодарю за совет. Я знаю это, но моя миссия не двоичная. Моя миссия состоит в том, чтобы у меня было 100 000 вопросов и 300 различных описаний предметов. Я хотел бы найти элемент для каждого вопроса. - Chad; 05.12.2019

Берт настроен на семантическое сходство

Ответы (2)

Вопросы по теме