Каково значение величины / нормы встраивания слов BERT?

Обычно мы сравниваем сходство между вложениями слов с косинусным сходством, но при этом учитывается только угол между векторами, а не норма. С word2vec норма вектора уменьшается по мере того, как слово используется в более разнообразных контекстах. Таким образом, стоп-слова близки к 0, и очень уникальные слова с высоким значением имеют тенденцию быть большими векторами. BERT зависит от контекста, поэтому это объяснение не полностью охватывает встраивания BERT. Кто-нибудь знает, какое значение может иметь величина вектора с BERT?


person Keshinko    schedule 23.07.2019    source источник
comment
На stats.stackexchange есть довольно подробный ответ - stats.stackexchange.com/questions/177905/   -  person Pavel Oganesyan    schedule 08.10.2019
comment
@PavelOganesyan Нет, Берт там вообще не упоминается. Более того, ссылка предлагает только очень общие замечания о word2vec и векторах в целом (о которых автор этого OP явно знает, как предполагает его второе предложение)   -  person Peter Franek    schedule 08.10.2019
comment
@PavelOganesyan хотя и не отвечает на вопрос, но ваша ссылка предоставляет очень полезную справочную информацию о встраиваниях слов и удобных справочниках. Спасибо!   -  person drevicko    schedule 05.08.2020


Ответы (1)


Я не думаю, что есть какая-либо разница в отношении косинусного сходства или нормы вектора между BERT и другими вложениями, такими как GloVE или Word2Vec. Просто BERT является контекстно-зависимым встраиванием, поэтому обеспечивайте разные вложения слова для разного контекста.

person Shivam Sinha    schedule 15.10.2019
comment
Вы имеете в виду, что большая норма означает более конкретное (и менее распространенное) значение? - person Peter Franek; 15.10.2019
comment
Я несколько сомневаюсь, что вы правы. Можете ли вы дать какое-нибудь обоснование? Вложения BERT генерируются с помощью совершенно другого механизма. например: токены - это части слова, сами вложения не проходят через softmax через словарь, а не через контекстный rep. токена ‹MASK›. Я полагаю, что без веских аргументов в пользу обратного (например, экспериментов, которые показывают, что это работает) они будут следовать той же схеме. - person drevicko; 05.08.2020