Итак, собрав это вместе, у вас будет 42 класса, и ожидается, что у каждого будет примерно по 10 изображений.
Это ставит вас прямо перед потребностью в двух вещах:
Вы уже упомянули о вероятной необходимости увеличения данных в комментариях, и вы попали в точку: чтобы максимально использовать ваши 10 изображений в классе, вам нужно применить к ним целую кучу преобразований. Вероятно, намного больше, чем 10/20 изображений:
- Обрезка
- Масштабирование
- Шум
- Регулировка контраста/цвета/яркости
- Вращение
Хорошим примером увеличения данных для классификации изображений является официальный реснет. пример модели
Второе – трансферное обучение. Когда вы пытаетесь изучить модель на 42 классах из довольно небольшого количества данных, вы, вероятно, сможете добиться большего успеха, начав с модели, обученной на других данных, а затем переобучив последние (несколько) слоев с вашим новым набором данных. Причина этого заключается в том, что гораздо большее пространство примеров начального обучения поможет вашему классификатору изучить множество общих функций изображения, которые ваш классификатор, обученный переносом, может использовать для более быстрого достижения распознавания более высокого уровня.
В качестве альтернативы, конечно, вы могли бы использовать какую-то форму активного обучения — обучить классификатор, а затем показать ему изображения ваших токенов (возможно, через веб-камеру, классифицируя каждый кадр), а когда он ошибается, сохранить это как пример для следующего тренировочного раунда. Это требует больше работы, и вам придется построить для этого некоторую инфраструктуру, поэтому я бы начал с трансферного обучения.
Затем у вас возникает вопрос, с какой архитектуры начать трансферное обучение. Начальная часть, вероятно, слишком сложна для того, что вы делаете, но стандартная модель MNIST, вероятно, проще, чем вы хотите. Вам нужно будет немного поэкспериментировать — модифицированный классификатор в стиле LeNet, такой как общие примеры MNIST, может работать довольно хорошо (добавьте еще один сверточный слой, добавьте пакетную норму и, возможно, немного отсева). Кроме того, вы можете начать с предварительно обученного Mobilenet Сеть и передача учатся у нее. У меня возникло бы искушение начать с последнего, если только у вас нет строгих вычислительных ограничений на скорость вывода.
Для ваших изображений я бы начал с создания каталога изображений JPEG. Самым «официальным» способом их обработки будет процесс в этот ответ.
person
dga
schedule
22.11.2017