Я не мог понять следующие два отрывка из статьи. Они упоминают использование BiLSTM вместо LSTM? Как два LM были включены в архитектуру?

Двунаправленная языковая модель:

  • Как и в существующих работах (Peters et al., 2017, 2018), мы не ограничиваемся тонкой настройкой однонаправленной языковой модели. Для всех наших экспериментов мы предварительно обучаем как прямой, так и обратный LM. Мы независимо настраиваем классификатор для каждого LM, используя BPT3C, и усредняем прогнозы классификатора.

Влияние двунаправленности:

  • За счет обучения второй модели объединение прогнозов прямого и обратного LM-классификатора дает прирост производительности примерно на 0,5–0,7. На IMDb мы снижаем ошибку теста с 5,30 для одной модели до