Для эксперимента, который я проводил, Caffe терпел крах. Мой эксперимент включает в себя обучение сетей на разных подмножествах одних и тех же данных с использованием модели AlexNet. Для каждого испытания я создаю LMDB для этого конкретного подмножества данных, а затем изменяю свой сетевой .prototxt, чтобы он соответствовал параметрам. Для 40+ испытаний у меня не было проблем. Однако одно конкретное испытание постоянно дает сбой после 227 итераций обучения. Приведенная ошибка - это просто «Ошибка шины (сброшено ядро)». Это происходит независимо от того, провожу ли я обучение на GPU или CPU. Поиск не дал результатов ни у кого, у кого была эта ошибка. Очевидно, это какая-то ошибка адресации памяти. Я использую приставку Nvidia DIGITS с 64 ГБ ОЗУ и 12 ГБ видеопамяти. Системный монитор показывает, что я не использую всю системную память. Я могу предоставить свой prototxt, если это может быть полезно. Однако набор данных слишком велик для загрузки (> 20 ГБ).
I1128 12:50:01.558748 20000 Solver.cpp:228] Итерация 227, потеря = 5,8273
I1128 12:50:01.558786 20000 Solver.cpp:244] Чистый выход поезда #0: потеря = 5,8273 (* 1 = 5,8273 потеря )
I1128 12:50:01.558796 20000 sgd_solver.cpp:106] Итерация 227, lr = 0,001 Ошибка шины (дамп ядра)
Согласно этому вопросу, ошибки шины отсутствуют на современных машинах Intel, которые я занимательный. Что может быть причиной этой проблемы?