Я пытаюсь понять, является ли BlazingSQL конкурентом или дополнением к dask.
У меня есть данные среднего размера (10-50 ГБ), сохраненные в виде паркетных файлов в хранилище BLOB-объектов Azure.
IIUC Я могу запрашивать, объединять, агрегировать, группировать с помощью BlazingSQL с использованием синтаксиса SQL, но я также могу читать данные в CuDF с помощью dask_cudf
и выполнять все те же операции с использованием синтаксиса python / dataframe.
Так мне кажется, что они прямые конкуренты?
Правильно ли, что (одно из) преимуществ использования dask заключается в том, что он может работать с разделами, поэтому может работать с наборами данных, превышающими объем памяти графического процессора, тогда как BlazingSQL ограничен тем, что может поместиться на графическом процессоре?
Почему лучше использовать BlazingSQL, а не dask?
Изменить:
Документы говорят о dask_cudf
, но о самом репо заархивировано, говоря, что поддержка dask теперь есть в самом cudf
. Было бы неплохо узнать, как использовать dask
для работы с наборами данных размером больше, чем память графического процессора, с cudf