Что заставляет Caffe выдавать ошибку Bus

Для эксперимента, который я проводил, Caffe терпел крах. Мой эксперимент включает в себя обучение сетей на разных подмножествах одних и тех же данных с использованием модели AlexNet. Для каждого испытания я создаю LMDB для этого конкретного подмножества данных, а затем изменяю свой сетевой .prototxt, чтобы он соответствовал параметрам. Для 40+ испытаний у меня не было проблем. Однако одно конкретное испытание постоянно дает сбой после 227 итераций обучения. Приведенная ошибка - это просто «Ошибка шины (сброшено ядро)». Это происходит независимо от того, провожу ли я обучение на GPU или CPU. Поиск не дал результатов ни у кого, у кого была эта ошибка. Очевидно, это какая-то ошибка адресации памяти. Я использую приставку Nvidia DIGITS с 64 ГБ ОЗУ и 12 ГБ видеопамяти. Системный монитор показывает, что я не использую всю системную память. Я могу предоставить свой prototxt, если это может быть полезно. Однако набор данных слишком велик для загрузки (> 20 ГБ).

I1128 12:50:01.558748 20000 Solver.cpp:228] Итерация 227, потеря = 5,8273
I1128 12:50:01.558786 20000 Solver.cpp:244] Чистый выход поезда #0: потеря = 5,8273 (* 1 = 5,8273 потеря )
I1128 12:50:01.558796 20000 sgd_solver.cpp:106] Итерация 227, lr = 0,001 Ошибка шины (дамп ядра)

Согласно этому вопросу, ошибки шины отсутствуют на современных машинах Intel, которые я занимательный. Что может быть причиной этой проблемы?


person dumbducky    schedule 02.12.2016    source источник
comment
Поделитесь, пожалуйста, дампом ядра. Это правильное место для начала.   -  person Prabindh    schedule 06.12.2016
comment
@prabindh Я опубликовал весь журнал. Если ядро ​​не сброшено в файл системного журнала, у меня больше ничего нет.   -  person dumbducky    schedule 06.12.2016
comment
Обычно в Linux это будет большой файл с именем core в том же каталоге, откуда вы работаете. Также см. заголовок stackoverflow.com/questions/17965/   -  person Prabindh    schedule 06.12.2016


Ответы (1)


Я обнаружил причину. Я использовал другой компьютер для создания LMDB и переноса его на машину, на которой работает caffe с флэш-накопителя. По какой-то причине перенос файлов на эту флешку приводит к тому, что lmdb усекается с ~ 20 ГБ до 15 ГБ без моего предупреждения. Я думаю, что caffe, кажется, разбился, когда достиг неожиданного конца lmdb. Повторная передача файла и проверка того, что он не был усечен, решили проблему.

person dumbducky    schedule 07.12.2016