Сколько времени потребуется для обучения с образцами данных (образцами игрушек) для текстовой суммы тензорного потока?

Я работаю над textsum tensorflow (модель суммирования текста). Я запустил его, чтобы обучить модель с помощью образца данных, т. е. игрушечного набора данных, предоставленного вместе с моделью, при клонировании из git. Я хотел знать, сколько времени потребуется для обучения модели и декодирования с помощью образца набора данных? Это уже заняло более 17 часов и все еще работает.


person Kajal Kodrani    schedule 13.10.2016    source источник
comment
Как заявил @Eilian ниже, если вы используете это на процессоре, вы можете быть там какое-то время. Если у вас нет доступа к графическому процессору, вы можете попробовать получить экземпляр AWS G2 или P2: aws.amazon.com/ec2/instance-types Когда я проводил обучение с игрушечным набором данных, я получил приличные результаты с очень низкими средними потерями примерно через день обучения на моем 980M. Однако важно отметить, что вы не получите действительных результатов, если будете использовать включенный словарный запас игрушечного набора данных, поскольку слова в обучающем наборе отсутствуют в файле игрушечного словаря. github.com/tensorflow/models/issues/464   -  person xtr33me    schedule 14.10.2016
comment
Я запускаю учебную модель на графическом процессоре on;y. Но я изменил max_run_steps на «2000». Он работал в течение 2-3 часов, и модель обучалась.   -  person Kajal Kodrani    schedule 17.10.2016
comment
здесь я разделил игрушечный набор данных на 17-4 (обучение-тестирование). и обучил модель с тем же файлом vocab. но у меня возникла проблема с шагом декодирования. Нужно ли мне изменять файл vocab при изменении данных обучения? Как я могу создать файл словаря из набора обучающих данных?   -  person Kajal Kodrani    schedule 17.10.2016
comment
Просто чтобы ответить на ваш вопрос о файле vocab. Все, что представляет файл словарного запаса, — это отдельные слова в данных, на которых они обучены, и их общее количество, которое они встречают. Итак, если из всех файлов данных слово «the» встречается 150 раз, то вы увидите «the 150» в файле vocab. Поэтому, когда я его создал, в рамках форматирования необработанных данных я вел подсчеты и в конце выводил данные в файл vocab.   -  person xtr33me    schedule 17.10.2016


Ответы (2)


К сожалению, с игрушечным обучающим набором данных он предназначен только для того, чтобы дать вам возможность наблюдать за общим потоком модели, а не для получения достойных результатов. Это связано с тем, что в игрушечном наборе данных недостаточно данных, чтобы обеспечить хорошие результаты.

Количество времени сложно указать, поскольку все зависит от оборудования, на котором вы работаете. Таким образом, вы обычно будете тренироваться до тех пор, пока не достигнете средней потери от 2 до 1. Синь Пан заявил, что с большими наборами данных вы никогда не должны опускаться ниже средней потери 1,0. Итак, на моем 980M я смог получить это менее чем за день с игрушечным набором данных.

Тем не менее, мои результаты были очень плохими, и я подумал, что что-то не так. Я обнаружил, что единственной ошибкой было то, что у меня не было достаточно данных. Затем я собрал около 40 000 статей, но результаты все равно были неприемлемыми. Недавно я тренировался на 1,3 миллионах статей, и результаты намного лучше. После дальнейшего анализа это в первую очередь связано с тем, что модель текстовой суммы является абстрактной, а не экстрактивной.

Надеюсь, это немного поможет. Для 1,3 миллиона и пакетного набора 64 я смог обучить модель на своем оборудовании менее чем за полторы недели, используя TF 0.9, cuda 7.5 и cudnn 4. Я слышал, что новые cudnn/cuda должны быть быстрее. , но я пока не могу говорить об этом.

person xtr33me    schedule 21.11.2016

На моем процессоре i5, использующем только процессор, потребовалось около 60 часов, чтобы достичь значения 0,17 для игрушечного набора данных для обучения.

Используя 8 ГБ оперативной памяти, потребовалось около 10 ГБ дополнительной памяти подкачки. Увеличение оперативной памяти и использование графического процессора могли бы дать лучшие результаты. В настоящее время я не могу показать изображение скользящей средней потери от tensorboard, но я надеюсь, что на ваш вопрос был дан ответ.

person Ayushya    schedule 02.02.2017