Резюме статьи: Vision Transformer для небольших наборов данных

Краткое содержание:

В предыдущих попытках применить преобразователи к приложениям машинного зрения низкая локальность, индуктивное смещение или предположения, которые сеть делает в отношении данных, создавали требования к большому набору данных для достижения приемлемой точности. В этом документе используются два метода: локальное самозатухание (LSA) и токенизация сдвинутых исправлений (SPT) для снижения требований к размеру набора данных.

Где это вписывается в ваш рабочий процесс:

Этот новый метод влияет на то, как строится модель, в результате чего требуется меньше обучающих данных и повышается точность имеющихся у вас обучающих данных. Вам нужно будет реализовать эти методы в вашей модельной сети,

Более глубокое погружение

Результаты

Aritra Roy Gosthipaty создала отличную реализацию в Colab и Github, благодаря чему ее легко внедрить в вашу модель.

Дальнейшее чтение

Что такое трансформер?

Реализация на гитхабе

Колаб