Декодеры больших преобразователей продемонстрировали революционную производительность при обработке коротких последовательностей (до нескольких тысяч токенов контекста); но плохо масштабируется для изображений, книг и видео, где последовательности могут достигать миллионов байтов. Это ограничение стало узким местом для многих реальных…