Я не мог понять следующие два отрывка из статьи.

Я не мог понять следующие два отрывка из статьи. Они упоминают использование BiLSTM вместо LSTM? Как два LM были включены в архитектуру?

Двунаправленная языковая модель:

Как и в существующих работах (Peters et al., 2017, 2018), мы не ограничиваемся тонкой настройкой однонаправленной языковой модели. Для всех наших экспериментов мы предварительно обучаем как прямой, так и обратный LM. Мы независимо настраиваем классификатор для каждого LM, используя BPT3C, и усредняем прогнозы классификатора.

Влияние двунаправленности:

За счет обучения второй модели объединение прогнозов прямого и обратного LM-классификатора дает прирост производительности примерно на 0,5–0,7. На IMDb мы снижаем ошибку теста с 5,30 для одной модели до

Ulmfit Machine Learning Deep Learning Classification Word Embeddings

09.05.2024