Вопросы по теме 'dask-distributed'

Обработка распределенных коллекций dask с помощью внешнего кода
У меня есть входные данные, хранящиеся в виде одного большого файла на S3. Я хочу, чтобы Dask автоматически нарезал файл, распространял среди рабочих и управлял потоком данных. Отсюда идея использования распределенной коллекции, например сумка....
186 просмотров
schedule 26.01.2023

Запуск планировщика dask из кода Python с графическим интерфейсом
По причине, характерной для моей системы сборки, я не могу в настоящее время запустить CLI dask-scheduler — мне нужно запустить планировщик из кода (пример приведен в документации dask.distributed). Есть ли способ запустить и настроить (т. е. выбрать...
334 просмотров
schedule 13.06.2022

Использование вычислений Dask приводит к зависанию выполнения
Это следующий вопрос к потенциальному ответу на один из моих предыдущих вопросов об использовании Dask, вычисляемого как доступ к одному элементу в большом массиве . Почему использование вычислений Dask приводит к зависанию выполнения ниже? Вот...
746 просмотров
schedule 06.07.2023

вложенный dask.compute не блокирует
Ожидается, что dask.compute(...) будет блокирующим вызовом. Однако, когда я вложил dask.compute, а внутренний выполняет ввод-вывод (например, dask.dataframe.read_parquet), внутренний dask.compute не блокируется. Вот пример псевдокода: import...
490 просмотров

Ресурсы Dask worker для распределенных воркеров
Когда вы определяете рабочие ресурсы ( http://distributed.readthedocs.io/en/latest/resources.html ) в распределенных многопроцессорных воркерах определяется ли пул ресурсов для всех процессов? Например, на рабочем хосте, на котором я работаю:...
586 просмотров
schedule 22.01.2023

Как я могу запустить распределенный по dask локальный кластер из командной строки?
Я хотел бы сделать эквивалент Client(LocalCluster()) из командной строки. При взаимодействии с распределенными блокнотами Jupyter я часто перезапускаю ядро ​​и каждый раз начинаю новое LocalCluster , а также обновляю свою веб-страницу с эффектом...
1071 просмотров
schedule 19.04.2023

Python + Distributed - можно ли с помощью Dask использовать набор рабочих для одновременного применения функции для разделения файлов из папки
Я хочу написать программу, которая вычисляет время, необходимое для чтения в папке файлов .py, и вычисляет цикломатическую сложность каждого из файлов. У меня установлен Radon для расчета сложности, но я также хочу иметь возможность реализовать...
45 просмотров

Лучший способ получить все фьючерсы в коллекции Dask
Если у кого-то есть коллекция Dask d , которая зависит от некоторого сохраняемого контента, как лучше всего получить список всех Future , от которых зависит d ?
95 просмотров
schedule 10.12.2022

Перераспределить задачи dask среди кластера
Я злоупотребляю dask как планировщиком задач для длительных задач с map (, pure = False). Поэтому меня не интересует граф dask, я просто использую dark как способ распространения команд unix. Допустим, у вас есть 1000 задач, и они работают в...
388 просмотров
schedule 16.06.2022

Распределенный Dask Не удалось десериализовать с помощью numpy.arrays и sparse.matrices
Я получаю следующую ошибку несколько раз для разных задач на графике (изменения между выполнениями). Возможно, когда определенные задачи возвращают numpy.array s и scipy.sparse матриц. distributed.protocol.pickle - INFO - Failed to deserialize...
890 просмотров
schedule 16.04.2022

Dask Distributed Получение фьючерсов после закрытия клиента
Есть ли способ предотвратить dask / distribution от отмены очереди и выполнения фьючерсов при закрытии клиента? Я хочу использовать блокнот jupyter, чтобы запустить несколько очень длительных симуляций с распределенным, закрыть блокнот и...
181 просмотров
schedule 02.07.2023

как выбрать --nthreads и --nprocs для каждого воркера в распределенной dask?
Как мы выбираем --nthreads и --nprocs для каждого воркера в распределенном Dask? У меня есть 3 рабочих, с 4 ядрами и одним потоком на ядро ​​на 2 рабочих и 8 ядер на 1 рабочий (согласно выходным данным команды lscpu Linux для каждого рабочего).
4416 просмотров

Параллельный запуск команд оболочки с использованием распределенного dask
У меня есть папка с множеством сценариев .sh. Как я могу использовать уже настроенный распределенный кластер dask для их параллельной работы? В настоящее время я делаю следующее: import dask, distributed, os # list with shell commands that I...
1529 просмотров
schedule 20.06.2022

Только чтение набора данных Pandas в Dask Distributed
TL; DR Я хочу разрешить рабочим использовать разбросанный фрейм данных Pandas, но не позволять им изменять какие-либо данные. Ниже приведен пример кода. Это возможно? (или это чистый вопрос Панд?) Полный вопрос Я читаю фреймворк Pandas и...
119 просмотров
schedule 11.11.2023

Dask.distributed использует только одно ядро ​​на узел
У меня есть программа, в которой каждая задача - это вызов внешней программы C ++ через subprocess.Popen . Задачи расположены в виде графика, и все выполняется с помощью команды dask get . У меня есть одноузловая версия этой программы, которая...
813 просмотров
schedule 09.11.2022

Поведение планировщика Dask при чтении/получении больших наборов данных
Это продолжение этого вопроса . У меня возникают проблемы с сохранением большого набора данных в распределенной памяти. У меня есть планировщик, работающий на одной машине, и 8 рабочих, каждый из которых работает на своей машине, соединенной...
144 просмотров
schedule 22.04.2024

Путаница относительно планировщика кластера и распределенного планировщика на одной машине
В приведенном ниже коде, почему dd.read_csv работает в кластере? client.read_csv должен работать в кластере. import dask.dataframe as dd from dask.distributed import Client client=Client('10.31.32.34:8786')...
169 просмотров
schedule 25.11.2022

использование памяти при индексировании большого фрейма данных dask на одной многоядерной машине
Я пытаюсь превратить Wikipedia CirrusSearch dump в базу данных dask с поддержкой Parquet, индексируемую по заголовку на Экземпляр GCP с 16 ядрами 450G. Дампы CirrusSearch представлены в виде файла в формате одной строки json. Дампы английской...
747 просмотров

compute () в dask не работает
Я пробую простое параллельное вычисление в Dask. Это мой код. import time import dask as dask import dask.distributed as distributed import dask.dataframe as dd import dask.delayed as delayed from dask.distributed import...
805 просмотров
schedule 22.09.2022

Настраиваете, как рабочие переключаются между несколькими задачами?
Мы наблюдаем странное поведение распределенного планировщика dask. С 200 рабочими мы распределяем 1200 задач, которые по сути являются одинаковыми, это длинные задачи, которые чередуются между привязкой к ЦП и вводом-выводом. Каждому работнику...
109 просмотров
schedule 28.11.2022