Ошибка при использовании удаленного выполнения на базе графического процессора с федеративным Tensorflow

Я пытаюсь поэкспериментировать со средой выполнения удаленного исполнителя с примером, приведенным по этой ссылке. https://github.com/tensorflow/federated/blob/master/tensorflow_federated/python/examples/remote_executor_example.py.

Если я использую тензорный поток на базе процессора, все работает нормально. Однако для тензорного потока на основе графического процессора возникает следующая ошибка, которая прерывает выполнение:

2020-03-29 16:27:22.904103: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:981] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2020-03-29 16:27:22.904807: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1241] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 978 MB memory) -> physical GPU (device: 0, name: GRID V100DX-32C, pci bus id: 0000:02:00.0, compute capability: 7.0)
2020-03-29 16:27:22.995000: W tensorflow/core/common_runtime/base_collective_executor.cc:217] BaseCollectiveExecutor::StartAbort Internal: No unary variant device copy function found for direction: 1 and Variant type_index: tensorflow::data::(anonymous namespace)::DatasetVariantWrapper
[[{{node partitionedcall_args_0/_2}}]]

Как мне решить эту проблему? Кто-нибудь сталкивался с подобными проблемами?


person pjletstrackit    schedule 29.03.2020    source источник
comment
Поделитесь минимальным воспроизводимым примером в самом сообщении.   -  person AMC    schedule 30.03.2020
comment
Отвечает ли это на ваш вопрос? MemoryError в TensorFlow; и успешное чтение узла NUMA из SysFS имело отрицательное значение (-1) с xen   -  person AMC    schedule 30.03.2020
comment
@AMC Я могу решить проблему с узлом NUMA. Тем не менее, проблема с не найденным одноместным вариантом устройства для направления все еще существует.   -  person pjletstrackit    schedule 30.03.2020
comment
Это известная внутренняя ошибка; мы работаем над решением этой проблемы и ожидаем ее исправления в следующем выпуске pip-package.   -  person Keith Rush    schedule 12.05.2020


Ответы (1)


Начиная с этого коммита, эта проблема должна быть исправлена ​​в TFF на главном сервере. Варианты смягчения последствий с вашей стороны включают:

  1. Создание TFF из мастера с использованием Bazel, как описано в документации здесь.
  2. В ожидании следующего выпуска пакета pip, который должен быть на следующей неделе.
  3. Ручное редактирование пакетов сайта на удаленном работнике для явного закрепления экземпляра набора данных на ЦП, как в связанном изменении.
person Keith Rush    schedule 12.05.2020