Я просматриваю документацию здесь: https://github.com/Microsoft/CNTK/wiki/Multiple-GPUs-and-machines
Согласно тексту: «Data-Parallel SGD может использоваться как с 1bit-SGD, так и без него».
Тем не менее, в этом документе есть только раздел, относящийся к параллельным данным с использованием 1-битного SGD: «Параллельное обучение данных с 1-битным SGD» со следующим кодом:
distributed_learner = distributed.data_parallel_distributed_learner(
learner = learner,
num_quantization_bits = 1,
distributed_after = distributed_after) # warm start: don't use 1-bit SGD for first epoch
Если я решу не использовать 1-битный SGD (пропустив соответствующие параметры в приведенном выше вызове), я думаю, что все равно должен получить преимущества распараллеливания data_parallel_distributed_learner. Не могли бы вы подтвердить, что это так?
Спасибо