Кластер блоков данных устанавливает все пакеты каждый раз, когда я его запускаю

Я работал над записной книжкой Databricks, используя Python / R. Как только работа будет выполнена, нам нужно завершить работу кластера, чтобы сэкономить на затратах. (Как мы используем машину).

Поэтому нам также нужно запустить кластер, если мы хотим работать на любом ноутбуке. Я видел, что это занимает много времени и снова устанавливаю пакеты в кластере. Есть ли способ избежать установки каждый раз при запуске кластера?

введите здесь описание изображения


person Arpit Sisodia    schedule 01.04.2019    source источник
comment
Думаю, вы можете установить их на рабочем месте вместо кластера. Я могу провести дополнительные исследования, чтобы убедиться, что это решает проблему.   -  person Jon    schedule 01.04.2019
comment
Да, дайте мне знать, возможно ли это.   -  person Arpit Sisodia    schedule 01.04.2019


Ответы (1)


К сожалению нет.

Когда вы завершаете кластер, его состояние памяти теряется, поэтому при повторном запуске он поставляется с чистым образом. Даже если вы добавите нужные пакеты в сценарий инициализации, их придется устанавливать при каждой инициализации.

Вы можете попросить службу поддержки Databricks проверить, возможно ли создать для вас собственный образ кластера.

person Henrique Florencio    schedule 01.04.2019