Задержки пропускной способности шины PCIE накладывают ограничения на то, как и когда приложения должны копировать данные в и из графических процессоров.
При непосредственной работе с cuDF я могу эффективно перемещать один большой кусок данных в один DataFrame.
При использовании dask_cudf для разделения моих DataFrames копирует ли Dask разделы в память графического процессора по одному? Пачками? Если да, то есть ли значительные накладные расходы из-за нескольких операций копирования вместо одной более крупной копии?