Мой вопрос о том, как получить пакетные данные из нескольких (или сегментированных) tfrecords. Я прочитал пример https://github.com/tensorflow/models/blob/master/inception/inception/image_processing.py#L410. Базовый конвейер: возьмите обучающий набор в качестве примера: (1) сначала сгенерируйте серию tfrecords (например, train-000-of-005
, train-001-of-005
, ...), (2) из этих имен файлов, сгенерируйте список и загрузите их в tf.train.string_input_producer
чтобы получить очередь, (3) одновременно сгенерируйте tf.RandomShuffleQueue
, чтобы делать другие вещи, (4) используя tf.train.batch_join
для генерации пакетных входных данных.
Я думаю, что это сложно, и я не уверен в логике этой процедуры. В моем случае у меня есть список .npy
файлов, и я хочу сгенерировать сегментированные tfrecords (несколько разделенных tfrecords, а не только один большой файл). Каждый из этих .npy
файлов содержит разное количество положительных и отрицательных образцов (2 класса). Основной метод - создать один большой файл tfrecord. Но файл слишком большой (~20Gb
). Поэтому я прибегаю к сегментированным записям. Есть ли более простой способ сделать это? Спасибо.