У меня есть программа CUDA, в которой потоки блочного чтения элементов длинного массива в несколько итераций и обращения к памяти почти полностью объединены. Когда я профилирую, Global Load Efficiency превышает 100 % (от 119 % до 187 % в зависимости от входных данных). Описание для Global Load Efficiency: "Отношение пропускной способности глобальной загрузки памяти к требуемой пропускной способности глобальной памяти". доступы извлекают выгоду из этого?
Мой графический процессор — GeForce GTX 780 (архитектура Kepler).