Вопросы по теме 'cuda-streams'
CUDA 4.0 RC — много потоков хоста на один GPU — поведение cudaStreamQuery и cudaStreamSynchronize
Я написал код, который использует множество потоков хоста (OpenMP) на один GPU. Каждый поток имеет свой собственный поток CUDA для упорядочения запросов. Это очень похоже на приведенный ниже код:
#pragma omp parallel for...
1518 просмотров
schedule
08.10.2023
Потоки CUDA не перекрываются
У меня есть что-то очень похожее на код:
int k, no_streams = 4;
cudaStream_t stream[no_streams];
for(k = 0; k < no_streams; k++) cudaStreamCreate(&stream[k]);
cudaMalloc(&g_in, size1*no_streams);
cudaMalloc(&g_out,...
3940 просмотров
schedule
25.05.2023
Данные перекрытия CUDA не работают
Использование паров для перекрытия передачи данных с выполнением ядра не работает в моей системе.
Здравствуйте, я хочу использовать перекрывающиеся вычисления и передачу данных в CUDA, но не могу. Справочный документ NVIDIA говорит Перекрывающиеся...
1013 просмотров
schedule
18.05.2022
Поведение потока 0 (по умолчанию) и других потоков
Как в CUDA поток 0 связан с другими потоками? Выполняется ли поток 0 (поток по умолчанию) одновременно с другими потоками в контексте или нет?
Рассмотрим следующий пример:
cudaMemcpy(Dst, Src, sizeof(float)*datasize,...
2962 просмотров
schedule
01.07.2022
Как потоки могут предлагать параллельное выполнение в CUDA?
В документации CUDA упоминается, что если мы используем 2 потока (stream0 и stream1) вот так: мы копируем данные в stream0, затем запускаем первое ядро в stream0, затем восстанавливаем данные с устройства в stream0, а затем те же операции...
324 просмотров
schedule
20.05.2022
CUDA - обрабатывать данные (массив) буфера одного пикселя на нескольких одновременных ядрах, возможно ли это?
В настоящее время у меня есть один пиксельный буфер, и я обрабатываю данные в нем одним вызовом ядра:
dim3 threadsPerBlock(32, 32)
dim3 blocks(screenWidth / threadsPerBlock.x, screenHeight / threadsPerBlock.y);
kernel<<<blocks,...
1108 просмотров
schedule
24.03.2023
Потоки CUDA блокируются, несмотря на асинхронность
Я работаю над видеопотоком в реальном времени, который пытаюсь обработать с помощью GeForce GTX 960M. (Windows 10, VS 2013, CUDA 8.0)
Каждый кадр должен быть захвачен, слегка размыт, и всякий раз, когда я могу, мне нужно проделать тяжелую работу...
1898 просмотров
schedule
11.10.2022
Почему я не получаю перекрытие вычислений ввода-вывода с этим кодом?
Следующая программа:
#include <iostream>
#include <array>
using clock_value_t = long long;
__device__ void gpu_sleep(clock_value_t sleep_cycles)
{
clock_value_t start = clock64();
clock_value_t cycles_elapsed;
do {...
60 просмотров
schedule
08.02.2023
В чем разница между Nvidia Hyper Q и Nvidia Streams?
Я всегда думал, что технология Hyper-Q — это не что иное, как потоки в GPU. Позже я обнаружил, что ошибался (правда?). Итак, я читал о Hyper-Q и еще больше запутался. Я просматривал одну статью, и в ней было два утверждения:
А. Hyper-Q – это...
848 просмотров
schedule
09.09.2022