Я работаю над textsum tensorflow (модель суммирования текста). Я запустил его, чтобы обучить модель с помощью образца данных, т. е. игрушечного набора данных, предоставленного вместе с моделью, при клонировании из git. Я хотел знать, сколько времени потребуется для обучения модели и декодирования с помощью образца набора данных? Это уже заняло более 17 часов и все еще работает.
Сколько времени потребуется для обучения с образцами данных (образцами игрушек) для текстовой суммы тензорного потока?
Ответы (2)
К сожалению, с игрушечным обучающим набором данных он предназначен только для того, чтобы дать вам возможность наблюдать за общим потоком модели, а не для получения достойных результатов. Это связано с тем, что в игрушечном наборе данных недостаточно данных, чтобы обеспечить хорошие результаты.
Количество времени сложно указать, поскольку все зависит от оборудования, на котором вы работаете. Таким образом, вы обычно будете тренироваться до тех пор, пока не достигнете средней потери от 2 до 1. Синь Пан заявил, что с большими наборами данных вы никогда не должны опускаться ниже средней потери 1,0. Итак, на моем 980M я смог получить это менее чем за день с игрушечным набором данных.
Тем не менее, мои результаты были очень плохими, и я подумал, что что-то не так. Я обнаружил, что единственной ошибкой было то, что у меня не было достаточно данных. Затем я собрал около 40 000 статей, но результаты все равно были неприемлемыми. Недавно я тренировался на 1,3 миллионах статей, и результаты намного лучше. После дальнейшего анализа это в первую очередь связано с тем, что модель текстовой суммы является абстрактной, а не экстрактивной.
Надеюсь, это немного поможет. Для 1,3 миллиона и пакетного набора 64 я смог обучить модель на своем оборудовании менее чем за полторы недели, используя TF 0.9, cuda 7.5 и cudnn 4. Я слышал, что новые cudnn/cuda должны быть быстрее. , но я пока не могу говорить об этом.
На моем процессоре i5, использующем только процессор, потребовалось около 60 часов, чтобы достичь значения 0,17 для игрушечного набора данных для обучения.
Используя 8 ГБ оперативной памяти, потребовалось около 10 ГБ дополнительной памяти подкачки. Увеличение оперативной памяти и использование графического процессора могли бы дать лучшие результаты. В настоящее время я не могу показать изображение скользящей средней потери от tensorboard, но я надеюсь, что на ваш вопрос был дан ответ.