установить cudf на блоки данных

Я пытаюсь использовать cudf для блоков данных.

Я подписался на https://medium.com/rapids-ai/rapids-can-now-be-accessed-on-databricks-unified-analytics-platform-666e42284bd1. Но ссылка на сценарий инициализации не работает.

Затем я перешел по этой ссылке (https://github.com/rapidsai/spark-examples/blob/master/getting-started-guides/csp/databricks/databricks.md#start-a-databricks-cluster), которые устанавливают банки cudf в кластер. Тем не менее я не мог import cudf.

Я также пробовал: %sh conda install -c rapidsai -c nvidia -c numba -c conda-forge cudf=0.13 python=3.7 cudatoolkit=10.1, но тоже не удалось с длинной ошибкой, заканчивающейся:

     active environment : /databricks/python
    active env location : /databricks/python
            shell level : 2
       user config file : /root/.condarc
 populated config files : /databricks/conda/.condarc
          conda version : 4.8.2
    conda-build version : not installed
         python version : 3.7.6.final.0
       virtual packages : __cuda=10.2
                          __glibc=2.27
       base environment : /databricks/conda  (writable)
           channel URLs : https://conda.anaconda.org/nvidia/linux-64
                          https://conda.anaconda.org/nvidia/noarch
                          https://conda.anaconda.org/rapidsai/linux-64
                          https://conda.anaconda.org/rapidsai/noarch
                          https://conda.anaconda.org/numba/linux-64
                          https://conda.anaconda.org/numba/noarch
                          https://conda.anaconda.org/conda-forge/linux-64
                          https://conda.anaconda.org/conda-forge/noarch
                          https://conda.anaconda.org/pytorch/linux-64
                          https://conda.anaconda.org/pytorch/noarch
                          https://repo.anaconda.com/pkgs/main/linux-64
                          https://repo.anaconda.com/pkgs/main/noarch
                          https://repo.anaconda.com/pkgs/r/linux-64
                          https://repo.anaconda.com/pkgs/r/noarch
          package cache : /databricks/python/pkgs
                          /local_disk0/conda/pkgs
       envs directories : /databricks/conda/envs
                          /root/.conda/envs
               platform : linux-64
             user-agent : conda/4.8.2 requests/2.22.0 CPython/3.7.6 Linux/4.4.0-1114-aws ubuntu/18.04.5 glibc/2.27
                UID:GID : 0:0
             netrc file : None
           offline mode : False


An unexpected error has occurred. Conda has prepared the above report.

Upload successful.

Есть идеи, как использовать cudf в кластере блоков данных?


person Etienne Herlaut    schedule 23.10.2020    source источник


Ответы (3)


Я помню, как некоторое время назад помогал писать тот блог :). Это уже устарело.

С тех пор Картик и его команда сделали несколько отличных обновлений с spark-rapids. Вот новейшая реализация RAPID с блоками данных в искре: https://nvidia.github.io/spark-rapids/docs/get-started/getting-started-databricks.html. Это должно заставить вас работать с новейшей версией cudf.

Я попрошу кого-нибудь добавить заявление об отказе от ответственности в этом конкретном блоге, чтобы другие тоже не запутались. Спасибо, что сообщили нам об этом вопросе!

person TaureanDyerNV    schedule 29.10.2020

Возможно вам понадобится cudatoolkit=10.2? У вас virtual packages : __cuda=10.2 в этом отчете.

Я исследую проблемы с установкой в ​​кластере графических процессоров Databricks (хотя и другая проблема) и заметил, что версия CUDA была 10.2, а не 10.1, как я ожидал.

person user1634478    schedule 11.11.2020

Я думаю, что OP хочет использовать python с cudf. Если да, то это не рассматривается в документации.

Но я попытался добавить ниже в файл generate-init-script.ipynb, чтобы он работал:

#Use mamba to install packages to speed up conda resolve time
base=$(conda info --base)
conda create -y -n mamba -c conda-forge mamba
pip uninstall -y pyarrow
${base}/envs/mamba/bin/mamba remove -y c-ares zstd libprotobuf pandas
${base}/envs/mamba/bin/mamba install -y "pyarrow=1.0.1" -c "conda-forge"
${base}/envs/mamba/bin/mamba install -y -c "rapidsai" -c "nvidia" -c "conda-forge" -c "defaults" "cudf=0.18" "cudatoolkit=10.1"
conda env remove -n mamba

Примечание. Измените версию cudf и cudatoolkit в соответствии с вашим env.

person Hao    schedule 17.06.2021