Я нашел фрагмент примера кода ядра OpenCL на сайте разработчиков Nvidia. Функция maxOneBlock
предназначена для нахождения максимального значения массива maxValue
и сохранения его в maxValue[0].
Я полностью понял часть зацикливания, но запутался в части unroll
: почему в части развертывания не нужно синхронизировать поток после выполнения каждого шага?
например: когда один поток выполняет сравнение localId и localId+32, как он гарантирует, что другой поток сохранил свой результат в localId+16?
Код ядра:
void maxOneBlock(__local float maxValue[],
__local int maxInd[])
{
uint localId = get_local_id(0);
uint localSize = get_local_size(0);
int idx;
float m1, m2, m3;
for (uint s = localSize/2; s > 32; s >>= 1)
{
if (localId < s)
{
m1 = maxValue[localId];
m2 = maxValue[localId+s];
m3 = (m1 >= m2) ? m1 : m2;
idx = (m1 >= m2) ? localId : localId + s;
maxValue[localId] = m3;
maxInd[localId] = maxInd[idx];
}
barrier(CLK_LOCAL_MEM_FENCE);
}
// unroll the final warp to reduce loop and sync overheads
if (localId < 32)
{
m1 = maxValue[localId];
m2 = maxValue[localId+32];
m3 = (m1 > m2) ? m1 : m2;
idx = (m1 > m2) ? localId : localId + 32;
maxValue[localId] = m3;
maxInd[localId] = maxInd[idx];
m1 = maxValue[localId];
m2 = maxValue[localId+16];
m3 = (m1 > m2) ? m1 : m2;
idx = (m1 > m2) ? localId : localId + 16;
maxValue[localId] = m3;
maxInd[localId] = maxInd[idx];
m1 = maxValue[localId];
m2 = maxValue[localId+8];
m3 = (m1 > m2) ? m1 : m2;
idx = (m1 > m2) ? localId : localId + 8;
maxValue[localId] = m3;
maxInd[localId] = maxInd[idx];
m1 = maxValue[localId];
m2 = maxValue[localId+4];
m3 = (m1 > m2) ? m1 : m2;
idx = (m1 > m2) ? localId : localId + 4;
maxValue[localId] = m3;
maxInd[localId] = maxInd[idx];
m1 = maxValue[localId];
m2 = maxValue[localId+2];
m3 = (m1 > m2) ? m1 : m2;
idx = (m1 > m2) ? localId : localId + 2;
maxValue[localId] = m3;
maxInd[localId] = maxInd[idx];
m1 = maxValue[localId];
m2 = maxValue[localId+1];
m3 = (m1 > m2) ? m1 : m2;
idx = (m1 > m2) ? localId : localId + 1;
maxValue[localId] = m3;
maxInd[localId] = maxInd[idx];
}
}