Эта проблема возникает при обучении моего собственного набора данных, который был преобразован в двоичный с помощью data_convert_example.py. После недели обучения я получаю результаты декодирования, которые не имеют смысла при сравнении файлов декодирования и ref.
Если кто-то добился успеха и получил результаты, аналогичные тем, что опубликованы в ридми Textsum, используя свои собственные данные, я хотел бы знать, что сработало для вас... среда, сборка tf, количество статей.
В настоящее время мне не повезло с 0.11, но я получил некоторые результаты с 0.9, однако результаты декодирования аналогичны показанным ниже, и я понятия не имею, откуда они вообще берутся.
В настоящее время я использую Ubuntu 16.04, TF 0.9, CUDA 7.5 и CuDnn 4. Я пробовал TF 0.11, но имел дело с другими проблемами, поэтому вернулся к 0.9. Кажется, что результаты декодирования генерируются из действительных статей, но индексы эталонного файла и файла декодирования НЕ имеют корреляции.
Если кто-то может предоставить любую помощь или направление, было бы очень признательно. В противном случае, если я что-нибудь выясню, я отпишусь здесь.
Несколько заключительных вопросов. Относительно упомянутого файла vocab. Нужно ли вообще сортировать по частоте слов? Я никогда не выполнял ничего подобного при его создании и просто не был уверен, что это тоже что-то испортит.
Наконец, при создании данных я исходил из того, что статьи с обучающими данными должны быть разбиты на более мелкие партии. Я разделил статьи на несколько файлов по 100 статей в каждом. Затем они были названы data-0, data-1 и т. д. Я предполагаю, что это было правильное предположение с моей стороны? Я также сохранил весь словарный запас в одном файле, который, похоже, не вызывал никаких ошибок.
Верны ли и приведенные выше предположения?
Ниже приведены некоторые результаты ref и decode, которые, как вы можете видеть, довольно странные и, похоже, не имеют корреляции.
РАСШИФРОВАТЬ:
output=Wild Boy Goes About How I Can't Be Really Go For Love
output=State Department defends the campaign of Iran
output=John Deere sails profit - Business Insider
output=to roll for the Perseid meteor shower
output=Man in New York City in Germany
ССЫЛКА:
output=Battle Chasers: Nightwar Combines Joe Mad's Stellar Art With Solid RPG Gameplay
output=Obama Meets a Goal That Could Literally Destroy America
output=WOW! 10 stunning photos of presidents daughter Zahra Buhari
output=Koko the gorilla jams out on bass with Flea from Red Hot Chili Peppers
output=Brenham police officer refused service at McDonald's