|ИНДУКТИВНОЕ СМЕЩЕНИЕ| ТРАНСФОРМАТОРЫ| КОМПЬЮТЕРНОЕ ЗРЕНИЕ|

Сказка об индуктивном смещении

Нужно ли нам индуктивное смещение? Как простые модели могут достичь производительности сложных моделей

Как мы видели в последние годы, глубокое обучение имело экспоненциальный рост как в использовании, так и в количестве моделей. Путь к этому успеху, возможно, проложило само переносное обучение — идея о том, что модель можно обучить на большом количестве данных, а затем использовать для множества конкретных задач.

В последние годы появилась парадигма: трансформер (или иным образом основанный на этой модели) используется для приложений НЛП. В то время как для изображений вместо них используются преобразователи зрения или сверточные сети.





С другой стороны, хотя у нас есть много работ, демонстрирующих на практике, что эти модели работают хорошо, теоретическое понимание того, почему это происходит, отстает. Это потому, что эти модели очень широки, и с ними сложно экспериментировать. Тот факт, что преобразователи зрения превосходят сверточные нейронные сети, имея теоретически менее индуктивное смещение для зрения, показывает, что существует теоретический пробел, который необходимо заполнить.

В этой статье основное внимание уделяется:

  • Что такое индуктивное смещение? Почему это важно и какое индуктивное смещение имеют наши любимые модели?
  • Индуктивное смещение трансформаторов и CNN. Каковы различия между этими двумя моделями и почему эти обсуждения важны?
  • Как мы можем изучать индуктивное смещение? Как использовать сходство между разными моделями, чтобы отразить их различия.
  • Может ли модель со слабым индуктивным смещением преуспеть в компьютерном зрении? поле, в котором индуктивное смещение…