в то время как перенос обучения / тонкой настройки последних языковых моделей, таких как BERT и XLNET, на сегодняшний день является очень распространенной практикой, как это обстоит с GloVe?
По сути, я вижу два варианта использования GloVe для получения плотных векторных представлений, которые могут использоваться последующими сетями.
1) Точная настройка вложения GloVe (в терминах pytorch, градиент включен)
2) Просто используйте вложения без градиента.
Например, учитывая матрицу вложений GloVe, я делаю
embed = nn.Embedding.from_pretrained(torch.tensor(embedding_matrix, dtype=torch.float))
...
dense = nn.Linear(...)
Лучше всего использовать GloVe исключительно для получения векторного представления (и тренировать только плотный слой и, возможно, другие слои), или можно также точно настроить матрицу встраивания?