Публикации по теме 'gpgpu'


Введение в написание кода FP16 для графических процессоров NVIDIA
Что и почему FP16 - это формат IEEE, в котором количество битов уменьшено по сравнению с традиционным форматом с плавающей запятой (например, 32 бита = ключевое слово «float» , которое мы используем в C / C ++). Основная причина использования этого FP16 с пониженной точностью заключается в том, что при использовании FP16 доступно аппаратное ускорение (если вас устраивает потеря точности) и есть двукратная экономия места. В частности, некоторые графические процессоры предлагают ускорение..

Реальное программирование CUDA — часть 4 — проверка ошибок
Проверка ошибок является важной частью каждой программы. Мы должны знать, когда наши операции завершились неудачно, чтобы мы могли повторить попытку или, по крайней мере, зарегистрировать проблему для последующего анализа. tl;dr Проверка ошибок в CUDA должна выполняться вручную, к счастью, Toolkit предоставляет полезные методы для этого. Ошибка проверки в CUDA К сожалению для нас, код CUDA выполняется на GPU, поэтому для параллельного (concurrent) кода нет стека, из которого мы могли..

Вопросы по теме 'gpgpu'

Как должен выглядеть очень простой Makefile для компиляции Cuda под Linux
Я хочу скомпилировать очень простую программу приветствия мирового уровня Cuda под Linux. У меня есть три файла: ядро: helloWorld.cu основной метод: helloWorld.cpp общий заголовок: helloWorld.h Не могли бы вы написать мне простой...
24217 просмотров
schedule 16.06.2022

Microsoft Accelerator V2 — вопрос toArray2D
Я новичок в Microsoft.Accelerator. Взгляните на следующий код (это F#, но он похож на C#): type FPA = Microsoft.ParallelArrays.FloatParallelArray let fi = List.init 9 (fun i -> new FPA(i, [|10;10|])) let process (fi: FPA list) : FPA list =...
608 просмотров
schedule 06.05.2023

Могу ли я вызвать функциональный макрос в заголовочном файле из функции CUDA __global__?
Это часть моего заголовочного файла aes_locl.h : . . # define SWAP(x) (_lrotl(x, 8) & 0x00ff00ff | _lrotr(x, 8) & 0xff00ff00) # define GETU32(p) SWAP(*((u32 *)(p))) # define PUTU32(ct, st) { *((u32 *)(ct)) = SWAP((st)); } . ....
808 просмотров
schedule 11.08.2022

Формат текстур для клеточных автоматов в OpenGL ES 2.0
Мне нужен быстрый совет. Я хотел бы смоделировать клеточный автомат (из A Simple, Эффективный метод реалистичной анимации облаков ) на графическом процессоре. Однако я ограничен шейдерами OpenGL ES 2.0 (в WebGL), которые не поддерживают никаких...
890 просмотров

Использует ли GLSL SLI? Есть ли OpenCL? Что лучше, GLSL или OpenCL для нескольких графических процессоров?
Насколько широко OpenGL GLSL использует установки SLI? Используется ли он вообще на этапе выполнения или только для конечного рендеринга? Точно так же я знаю, что OpenCL чужд SLI, но если предположить, что у него несколько графических процессоров,...
1929 просмотров
schedule 10.10.2023

Попытка смешать OpenCL с CUDA в шаблоне NVIDIA SDK
Мне было трудно настроить эксперимент, в котором я выделяю память с помощью CUDA на устройстве, беру этот указатель на память на устройстве, использую его в OpenCL и возвращаю результаты. Я хочу посмотреть, возможно ли это. Мне было трудно заставить...
1469 просмотров
schedule 23.02.2024

Можно ли использовать OpenCL для графического процессора PowerVR SGX530?
Можно ли использовать OpenCL для графического процессора PowerVR SGX530? Мне нужно написать программное обеспечение для распознавания изображений, которое может работать на смартфоне Droid X. Я был бы очень признателен, если бы кто-то мог...
5263 просмотров
schedule 07.05.2024

Могу ли я выполнить предварительную выборку определенных данных для определенного уровня кэша в ядре CUDA?
Я понимаю, что графические процессоры Fermi поддерживают предварительную выборку в кэш L1 или L2. Однако в справочном руководстве CUDA я ничего не могу найти об этом. Долги CUDA позволяют моему коду ядра предварительно выбирать определенные данные...
1791 просмотров
schedule 18.06.2022

Сбой ядра бикубической интерполяции OpenCL с ошибкой CL_EXEC_STATUS_ERROR_FOR_EVENTS_IN_WAIT_LIST
Бикубическая интерполяция является одним из распространенных методов интерполяции, но я не могу найти ни одной работающей реализации на OpenCL. Было решено самому написать бикубическую интерполяцию на OpenCL, но... У меня проблема с программой...
2770 просмотров

Пустой рендеринг с openGL
характеристики: Radeon 3870HD с openGL 3.3 и GLSL 1.5 Я визуализирую данные с помощью вычислительного шейдера. Из-за зависимостей мне пришлось поместить все свои данные в единые текстуры и ничего не осталось для атрибутов. Единственным значением,...
264 просмотров
schedule 03.08.2023

Программирование GPGPU с OpenGL ES 2.0
Я пытаюсь выполнить некоторую обработку изображений на графическом процессоре, например. медиана, размытие, яркость и т. д. Общая идея состоит в том, чтобы сделать что-то вроде этого фреймворка из GPU Gems 1. Я могу написать фрагментный шейдер...
8799 просмотров
schedule 25.07.2023

Проблемы 1D в CUDA и HPC
Я ищу некоторые одномерные проблемы в CUDA и HPC, например. Блэк Скоулз . Под одномерными задачами я подразумеваю задачи, в которых вся работа выполняется на одномерных массивах. Хотя умножение матриц можно выразить таким образом, мне нужны...
230 просмотров
schedule 04.06.2022

Как запустить другой поток из кода OpenCL?
Мой алгоритм состоит из двух шагов: Генерация данных. На этом шаге я генерирую массив данных в цикле как результат некоторой функции Обработка данных. Для этого шага я написал ядро ​​OpenCL, которое обрабатывает массив данных, сгенерированный...
1102 просмотров
schedule 20.08.2022

Различия в синхронизации блоков CUDA между устройствами GTS 250 и Fermi
Итак, я работаю над программой, в которой я создаю хеш-таблицу в глобальной памяти. Код полностью функционален (хотя и медленнее) на GTS250, который является устройством Compute 1.1. Однако на устройстве Compute 2.0 (C2050 или C2070) хеш-таблица...
1234 просмотров
schedule 24.08.2022

PyCUDA: C/C++ включает?
Что-то, что на самом деле нигде не упоминается (по крайней мере, что я могу видеть), это то, какие библиотечные функции доступны для встроенных ядер CUDA. В частности, я выполняю небольшие/глупые матричные умножения, которые не заслуживают того,...
602 просмотров
schedule 30.05.2022

Работайте, а не ждите glMapBuffer
Я использую OpenGL для некоторой обработки GPGPU. Итак, у меня есть разные потоки, работающие с потоком обработки OpenGL. После каждого «рабочего элемента» мне нужно вызвать glReadPixels и glMapBuffer, чтобы передать данные обратно на хост из PBO....
703 просмотров
schedule 02.05.2022

Быстрая арифметика с использованием flash 3d api?
Некоторое программное обеспечение, требующее больших вычислительных ресурсов, теперь использует GPU для решения математических задач. Теперь, когда флэш-память поддерживает GPU, можно ли использовать флэш-память для решения математических задач? Как...
313 просмотров
schedule 08.10.2022

Может ли Myers Diff работать на графических процессорах?
Я заинтересован в более быстрой реализации Myers diff, запустив ее на графическом процессоре, то есть с OpenCL. Я хорошо понимаю алгоритм, но новичок в программировании на GPU. Я предполагаю, что графический процессор не будет работать хорошо, но я...
237 просмотров
schedule 21.03.2023

Как можно использовать Opengl Es для реализации gpgpu
Я хочу использовать Opengl Es для реализации gpgpu кода обработки изображений. Я хочу знать, могу ли я использовать Opengl Es для этой цели. Если я могу, то какая версия Opengl Es будет более подходящей для этой цели (Opengl Es 1.1 или 2.0).
2822 просмотров
schedule 23.05.2022

CUDA: сильно ли замедляет запуск ядра передача аргументов ядру?
Новичок в CUDA здесь. В моем коде я в настоящее время запускаю ядра много раз в цикле в коде хоста. (Потому что мне нужна синхронизация между блоками). Поэтому я подумал, смогу ли я оптимизировать запуск ядра. Мои запуски ядра выглядят...
2233 просмотров
schedule 13.11.2022