Вопросы по теме 'dask-distributed'
Обработка распределенных коллекций dask с помощью внешнего кода
У меня есть входные данные, хранящиеся в виде одного большого файла на S3. Я хочу, чтобы Dask автоматически нарезал файл, распространял среди рабочих и управлял потоком данных. Отсюда идея использования распределенной коллекции, например сумка....
186 просмотров
schedule
26.01.2023
Запуск планировщика dask из кода Python с графическим интерфейсом
По причине, характерной для моей системы сборки, я не могу в настоящее время запустить CLI dask-scheduler — мне нужно запустить планировщик из кода (пример приведен в документации dask.distributed). Есть ли способ запустить и настроить (т. е. выбрать...
334 просмотров
schedule
13.06.2022
Использование вычислений Dask приводит к зависанию выполнения
Это следующий вопрос к потенциальному ответу на один из моих предыдущих вопросов об использовании Dask, вычисляемого как доступ к одному элементу в большом массиве .
Почему использование вычислений Dask приводит к зависанию выполнения ниже? Вот...
746 просмотров
schedule
06.07.2023
вложенный dask.compute не блокирует
Ожидается, что dask.compute(...) будет блокирующим вызовом. Однако, когда я вложил dask.compute, а внутренний выполняет ввод-вывод (например, dask.dataframe.read_parquet), внутренний dask.compute не блокируется. Вот пример псевдокода:
import...
490 просмотров
schedule
31.07.2022
Ресурсы Dask worker для распределенных воркеров
Когда вы определяете рабочие ресурсы ( http://distributed.readthedocs.io/en/latest/resources.html ) в распределенных многопроцессорных воркерах определяется ли пул ресурсов для всех процессов?
Например, на рабочем хосте, на котором я работаю:...
586 просмотров
schedule
22.01.2023
Как я могу запустить распределенный по dask локальный кластер из командной строки?
Я хотел бы сделать эквивалент Client(LocalCluster()) из командной строки.
При взаимодействии с распределенными блокнотами Jupyter я часто перезапускаю ядро и каждый раз начинаю новое LocalCluster , а также обновляю свою веб-страницу с эффектом...
1071 просмотров
schedule
19.04.2023
Python + Distributed - можно ли с помощью Dask использовать набор рабочих для одновременного применения функции для разделения файлов из папки
Я хочу написать программу, которая вычисляет время, необходимое для чтения в папке файлов .py, и вычисляет цикломатическую сложность каждого из файлов. У меня установлен Radon для расчета сложности, но я также хочу иметь возможность реализовать...
45 просмотров
schedule
30.04.2022
Лучший способ получить все фьючерсы в коллекции Dask
Если у кого-то есть коллекция Dask d , которая зависит от некоторого сохраняемого контента, как лучше всего получить список всех Future , от которых зависит d ?
95 просмотров
schedule
10.12.2022
Перераспределить задачи dask среди кластера
Я злоупотребляю dask как планировщиком задач для длительных задач с map (, pure = False). Поэтому меня не интересует граф dask, я просто использую dark как способ распространения команд unix.
Допустим, у вас есть 1000 задач, и они работают в...
388 просмотров
schedule
16.06.2022
Распределенный Dask Не удалось десериализовать с помощью numpy.arrays и sparse.matrices
Я получаю следующую ошибку несколько раз для разных задач на графике (изменения между выполнениями). Возможно, когда определенные задачи возвращают numpy.array s и scipy.sparse матриц.
distributed.protocol.pickle - INFO - Failed to deserialize...
890 просмотров
schedule
16.04.2022
Dask Distributed Получение фьючерсов после закрытия клиента
Есть ли способ предотвратить dask / distribution от отмены очереди и выполнения фьючерсов при закрытии клиента?
Я хочу использовать блокнот jupyter, чтобы запустить несколько очень длительных симуляций с распределенным, закрыть блокнот и...
181 просмотров
schedule
02.07.2023
как выбрать --nthreads и --nprocs для каждого воркера в распределенной dask?
Как мы выбираем --nthreads и --nprocs для каждого воркера в распределенном Dask? У меня есть 3 рабочих, с 4 ядрами и одним потоком на ядро на 2 рабочих и 8 ядер на 1 рабочий (согласно выходным данным команды lscpu Linux для каждого рабочего).
4416 просмотров
schedule
06.06.2023
Параллельный запуск команд оболочки с использованием распределенного dask
У меня есть папка с множеством сценариев .sh. Как я могу использовать уже настроенный распределенный кластер dask для их параллельной работы?
В настоящее время я делаю следующее:
import dask, distributed, os
# list with shell commands that I...
1529 просмотров
schedule
20.06.2022
Только чтение набора данных Pandas в Dask Distributed
TL; DR Я хочу разрешить рабочим использовать разбросанный фрейм данных Pandas, но не позволять им изменять какие-либо данные. Ниже приведен пример кода. Это возможно? (или это чистый вопрос Панд?)
Полный вопрос Я читаю фреймворк Pandas и...
119 просмотров
schedule
11.11.2023
Dask.distributed использует только одно ядро на узел
У меня есть программа, в которой каждая задача - это вызов внешней программы C ++ через subprocess.Popen . Задачи расположены в виде графика, и все выполняется с помощью команды dask get .
У меня есть одноузловая версия этой программы, которая...
813 просмотров
schedule
09.11.2022
Поведение планировщика Dask при чтении/получении больших наборов данных
Это продолжение этого вопроса .
У меня возникают проблемы с сохранением большого набора данных в распределенной памяти. У меня есть планировщик, работающий на одной машине, и 8 рабочих, каждый из которых работает на своей машине, соединенной...
144 просмотров
schedule
22.04.2024
Путаница относительно планировщика кластера и распределенного планировщика на одной машине
В приведенном ниже коде, почему dd.read_csv работает в кластере? client.read_csv должен работать в кластере.
import dask.dataframe as dd
from dask.distributed import Client
client=Client('10.31.32.34:8786')...
169 просмотров
schedule
25.11.2022
использование памяти при индексировании большого фрейма данных dask на одной многоядерной машине
Я пытаюсь превратить Wikipedia CirrusSearch dump в базу данных dask с поддержкой Parquet, индексируемую по заголовку на Экземпляр GCP с 16 ядрами 450G. Дампы CirrusSearch представлены в виде файла в формате одной строки json. Дампы английской...
747 просмотров
schedule
18.06.2022
compute () в dask не работает
Я пробую простое параллельное вычисление в Dask. Это мой код.
import time
import dask as dask
import dask.distributed as distributed
import dask.dataframe as dd
import dask.delayed as delayed
from dask.distributed import...
805 просмотров
schedule
22.09.2022
Настраиваете, как рабочие переключаются между несколькими задачами?
Мы наблюдаем странное поведение распределенного планировщика dask.
С 200 рабочими мы распределяем 1200 задач, которые по сути являются одинаковыми, это длинные задачи, которые чередуются между привязкой к ЦП и вводом-выводом. Каждому работнику...
109 просмотров
schedule
28.11.2022