Вопросы по теме 'cublas'

BLAS и CUBLAS
Мне интересно узнать о библиотеке NVIDIA cuBLAS. У кого-нибудь есть опыт работы с этим? Например, если я напишу программу на C с использованием BLAS, смогу ли я заменить вызовы BLAS вызовами cuBLAS? Или еще лучше реализовать механизм, который...
4668 просмотров
schedule 17.04.2023

Треугольные решатели cuSparse и cuBlas [дубликаты]
На самом деле я опубликовал соответствующий вопрос несколько дней назад, но получил нули ответов, однако вчера я пришел к очень странному выводу, как упоминалось в моем предыдущем вопросе: Очень низкая производительность csrsv_analysis cusparse ,...
1236 просмотров
schedule 02.08.2022

Доступ к подматрицам с помощью cuBLAS
Я прочитал следующий пост Доступ к подматрицам с помощью LAPACK Я хотел бы сделать что-то подобное, вызывая подпрограммы cuBLAS из Fortran. По сути, у меня есть большая матрица, разделенная на блоки 3 x 3 , причем разделение меняется на...
818 просмотров
schedule 02.01.2023

Операции с cuDoubleComplex внутри cuda-kernel
У меня вопрос к моей реализации ядра cuda. Я создал ядро ​​cude, в которое я хочу добавить элементы переменных cuDoubleComplex. Позже я также хочу сделать умножение элементов. Я пробовал несколько способов, но не нашел решения. Моя функция:...
1291 просмотров
schedule 17.05.2023

Как использовать библиотеку CUBLAS в функции шаблона?
В CUBLAS есть отдельная функция для каждого типа данных, но я хочу вызовите CUBLAS из шаблона, например: template <typename T> foo(...) { ... cublas<S/D/C/Z>geam(..., const T* A, ...); ... } Как вызвать правильный...
559 просмотров
schedule 16.08.2022

Смесь кода С++ и cublas не компилируется
Итак, у меня есть этот код, который предполагает вычисление скалярного произведения матрицы разными способами (один из которых - использовать blas в С++), но когда я пытаюсь использовать nvcc для компиляции кода, он не работает, и он говорит, что у...
948 просмотров
schedule 31.12.2023

CUDA/CUBLAS Матрично-векторное умножение
Ранее я задавал вопрос об умножении матрицы на вектор в CUDA и о написании собственного ядра. После этого я решил реализовать свою проблему с помощью CUBLAS, как было предложено некоторыми пользователями (спасибо @Robert Crovella) на SO в надежде на...
3550 просмотров
schedule 31.12.2022

Вызов cublas в ядре
Я хочу использовать Zgemv параллельно. __global__ void S_Cphir(cuDoubleComplex *S,cuDoubleComplex *A,cuDoubleComplex *B, int n,int l) { .... cublasZgemv(handle,CUBLAS_OP_N,n,n,&alpha,S+i*n*n,n,A+n*i,1,&beta,B+i*n,1);} void...
1742 просмотров
schedule 14.09.2022

Динамический параллелизм CUDA; синхронизация потоков с устройства
Я в основном ищу способ синхронизировать поток изнутри устройства. Я хочу избежать использования cudaDeviceSynchronize(), так как это приведет к сериализации выполнения моего ядра, которое я хочу выполнять одновременно с использованием потоков;...
1214 просмотров
schedule 07.07.2022

Копирование массива указателей в память устройства и обратно (CUDA)
Я пытаюсь использовать cublas функцию cublasSgemmBatched в моем игрушечном примере. В этом примере я сначала выделяю 2D-массивы: h_AA, h_BB размером [ 6 ][ 5 ] и h_CC размером [ 6 ][ 1 ]. После этого я скопировал его на устройство, выполнил...
4849 просмотров
schedule 18.06.2023

CUDA cuBlasGetmatrix/cublasSetMatrix терпит неудачу | Объяснение аргументов
Я попытался скопировать матрицу [1 2 3 4 ; 5 6 7 8 ; 9 10 11 12 ] , хранящуюся в формате столбцов как x , сначала скопировав ее в матрицу графического процессора NVIDIA d_x с помощью cublasSetMatrix , а затем скопировав d_x в y с помощью...
282 просмотров
schedule 04.09.2022

CUDA cublas getrf и getri для инверсии матрицы вызывают ошибки nvprof с одномерной памятью
Я пытаюсь использовать функции cuBlas cublasSgetrf и cublasSgetri, чтобы найти инверсию квадратной матрицы. Эта часть кода является частью более крупной программы, в которой я пытаюсь свести к минимуму любые ненужные выделения памяти или копии. В...
336 просмотров
schedule 10.11.2022

Cublas не работает в ядре после компиляции в cubin с использованием флага -G с nvcc
У меня есть ядро ​​CUDA, которое выглядит следующим образом: #include <cublas_v2.h> #include <math_constants.h> #include <stdio.h> extern "C" { __device__ float ONE = 1.0f; __device__ float M_ONE = -1.0f;...
551 просмотров
schedule 20.07.2022

ошибка при использовании cublasSgemmBatched в mex
Я пытаюсь умножить несколько матриц из Matlab, используя cublasSgemmBatched в файле MEX. Мой код Matlab очень прост: gpuDevice(1); a = single(rand(400,10,1500,'gpuArray')); b = single(rand(10,12,1500,'gpuArray')); c = MatCuda(a,b) Я...
985 просмотров
schedule 13.08.2022

Продукт cuBLAS Dgemm с питоном
У меня есть 2 простые матрицы A и B , и я вычисляю их умножение. Массивы выглядят так (используя numpy как макет) A=np.array(([1,2,3],[4,5,6])).astype(np.float64) B=np.array(([7,8],[9,10],[11,12])).astype(np.float64) Вот формы Матрицы...
986 просмотров
schedule 08.04.2022

есть ли способ сделать saypx в cuBLAS?
cublasSaxpy вычисляет y' = a * x + y, где x и y — векторы, а a — скаляр. Оказывается, вместо этого мне нужно вычислить y' = a * y + x. Я не вижу, как заставить библиотеку cuBLAS сделать это. (Конечно, я мог бы вычислить y' = a * y, тогда y' =...
275 просмотров
schedule 08.06.2023

Эффективное умножение матрицы с транспонированием с использованием cuBlas
Есть ли эффективный способ использования cuBlas при умножении большой плотной матрицы на ее транспонирование? В частности, есть ли какая-либо функция, которая использует тот факт, что результирующая матрица симметрична, что уменьшает количество...
182 просмотров

Обратная матрица cuBLAS намного медленнее, чем MATLAB
В моем текущем проекте я пытаюсь вычислить обратную большую (n > 2000) матрицу с помощью cuBLAS. Выполняется обратный расчет, но по какой-то причине время расчета значительно меньше, чем при выполнении в MATLAB. Я приложил образец вычисления,...
3808 просмотров
schedule 26.02.2022

Как я могу пропустить четвертый элемент в float4 при использовании cublas sgemv?
Часть кода, над которым я работаю, требует как можно более быстрого выполнения матричного векторного умножения, то есть с использованием оптимизированной сторонней библиотеки, такой как cublas (хотя тот же принцип применим к любому процессору)....
245 просмотров
schedule 20.04.2022

ошибка выполнения тензорного потока с Cublas
когда я успешно устанавливаю тензорный поток в кластере, я немедленно запускаю демонстрацию mnist, чтобы проверить, все ли в порядке, но здесь я столкнулся с проблемой. Я не знаю, в чем дело, но похоже, что ошибка исходит от CUDA python3 -m...
26665 просмотров
schedule 16.01.2022