Обобщающая способность моделей глубокого обучения

1. Понятие быстрого обучения и его влияние на производительность моделей глубокого обучения.

Согласно авторам статьи «Быстрое обучение в глубоких нейронных сетях» [ссылка 1], «Ярлыки — это правила принятия решений, которые хорошо работают на стандартных тестах, но не могут быть перенесены в более сложные условия тестирования, такие как сценарии реального мира».

Таксономия правил принятия решений

  • Нейронные сети или алгоритмы машинного обучения определяют взаимосвязь между входом и выходом, реализуя правило принятия решения.
  • Ярлыки — это одна группа правил принятия решений.

Подмножество всех возможных правил принятия решений:

  • Серая окружающая область представляет решения, которые были получены из неинформативных признаков. Все предлагаемые решения плохи и бесполезны.
  • Круг кремового цвета представляет решения, которые хорошо работают с наборами данных для обучения, но не с наборами для тестирования. В общем случае это означает, что модель переоснащена.
  • Синий кружок представляет решения, которые хорошо работают на обучающих наборах данных и независимых и одинаково распределенных тестовых наборах данных (i.i.d.). Модель достигла нескольких решений, но не предполагаемых. Это быстрые решения.
  • Оранжевый круг представляет предполагаемое решение, которое хорошо работает на всех наборах данных, включая тестовый набор данных вне распределения (o.o.d.) и (i.i.d.), и оно действительно хорошо обобщает.

Как сокращенное обучение влияет на производительность моделей глубокого обучения?

Быстрое обучение — явление не новое. Примерами являются обучение при ковариантном сдвиге, антипричинное обучение и смещение набора данных.

1. Сдвиг ковариации

  • «Когда размеченные обучающие данные плохо представляют неразмеченные целевые данные из-за различий в распределениях ковариатов, тогда у нас есть ковариатный сдвиг». [Ссылка 2]
  • Например, модель может обучаться на носителях английского языка из определенной области с определенным акцентом. Хотя модель может достичь высокой степени точности с обучающими данными, она станет неточной при обработке разговорной речи в реальной среде.
  • Ковариативный сдвиг происходит, когда выбранные выборки из набора обучающих данных не являются полностью случайными, а смещены в сторону определенных ковариатных атрибутов. [Ссылка 2]

2- Антикаузальное обучение:

  • «Задачи машинного обучения в целом антикаузальны. Они выводят причины (ярлыки) из следствий (наблюдений)». [Ссылка 3]
  • Глубокое обучение поддерживается принципом независимости ICM от причины и механизма. В то время как модели RNN могут работать хорошо, модели Feed Forward и CNN плохо обобщают антикаузальное направление. [Ссылка 3]
  • Например, предсказание принадлежности к классу по рукописной цифре. Здесь X (принадлежность к классу) вызывает Y (цифру, написанную от руки), и это антипричинная проблема.

3 – Предвзятость данных

Предвзятость данных возникает из-за выборки данных из реальной жизни. Данные настолько сложны, объемны и содержат множество нюансов, что любой конечный набор выборок делает необъективным, поскольку он может охватывать лишь несколько аспектов этого набора. [Ссылка 4]

История гласит, что еще в 90-х годах американские военные пытались научить компьютер различать российские и американские танки на фотографиях. Вместо того, чтобы идентифицировать танки, алгоритм научился различать зернистые и качественные фотографии. [Ссылка 5]

Умный Ганс был лошадью из Германии, которая якобы умела считать еще в 1900-х годах. Позже исследователи обнаружили, что Ганс читал язык тела экзаменатора вместо того, чтобы заниматься математикой, и, таким образом, давал правильный ответ по неправильной причине. [Ссылка 6]

Сегодня умные эффекты Ганса или стратегии изучаются в предикторах машинного обучения, чтобы описать прогноз, сделанный путем изучения предвзятых и коррелированных данных обучения вместо действительных предполагаемых функций и отношений.

2. Общие источники ярлыков в глубоком обучении

Мы можем различать два аспекта, из которых вытекают ярлыки в глубоком обучении: функции быстрого доступа или сочетание возможностей и функций. Вместе эти аспекты определяют, как модель обобщается.

А. Быстрые функции или возможности

Это возможности решения проблем иначе, чем предполагалось. Для DNN знакомый фон может быть так же важен для распознавания объекта, как и сам объект.

Корова на пляже, а не на траве, классифицируется неправильно.

Между объектом и фоном должна быть систематическая связь, иначе контекст может легко создать кратчайший путь. Систематические предубеждения присутствуют даже в «больших данных» с большим объемом и разнообразием.

Б. Комбинация функций:

Это то, как различные функции объединяются, чтобы сформировать правило принятия решения.

Используя дискриминационное обучение, модель выбирает любой признак, такой как силуэт, текстура, цвет, края и т. д., который различает заданный набор данных, не принимая во внимание, как определяется объект или как сочетаются признаки. Для комбинации признаков определение объекта зависит от комбинации информации из разных источников или атрибутов, влияющих на правило принятия решения.

Для стандартной DNN на этом изображении изображен слон, а не кошка.

3. Эффективные стратегии обнаружения и противодействия быстрому обучению

Быстрое обучение через глубокое обучение:

1. Компьютерное зрение

Вращение, масштабирование объектов или добавление некоторого шума не обманывают человеческий глаз, но могут легко изменить результат предсказания нейронных сетей.

В глубоком обучении передача производительности модели между наборами данных может привести к ускоренному обучению, поскольку модели используют при обучении функции, специфичные для предметной области. В состязательных примерах используются крошечные изменения изображений, чтобы обмануть модель, заставляя ее неправильно классифицировать объекты. Это приводит к выводу, что неспособность нейронной сети обобщать связана не с обучением, а с неспособностью обобщать в намеченном направлении.

2. Обучение с подкреплением

Алгоритм обучения с подкреплением ухитрился не проиграть игру в тетрис, приостановив игру. Вознаграждение в обучении с подкреплением помогает алгоритму выбрать политику и действие, поэтому важно тщательно выбирать вознаграждение. В этом случае алгоритм выбрал непреднамеренную цель игры, приостановив игру, и, таким образом, попал в упрощенные решения. [Ссылка 1]

Диагностика и анализ ускоренного обучения:

Три действенных шага для диагностики и анализа ускоренного обучения

1. Тщательная интерпретация результатов:

Сегодня самый надежный эталон в области глубокого обучения основан на i.i.d. тестирование, которое немного обманчиво, потому что оно не измеряет, является ли предсказанное решение предполагаемым или упрощенным.

2. Канон Моргана:

Крысы научились находить дорогу в сложном лабиринте не по цвету, как предполагали исследователи, а по запаху цветной краски, нанесенной на стены лабиринта.

3. Тестирование надежных базовых показателей:

Всегда проверяйте, превзошла ли базовая модель ожидания, даже если она не использует предполагаемые функции. Например, ответить на вопрос о фильме, даже не показывая фильм модели.

Следовательно, нам нужно полагаться на о.о.д. данные, чтобы измерить, хорошо ли обобщает модель. Мы не можем систематически использовать перенос обучения от животных к людям или ожидать, что животные будут вести себя так, как мы того хотим.

Создание о.о.д. обобщение проверяет стандартную практику:

Нам нужно определить процедуру, которая могла бы заменить i.i.d. тестирование в качестве стандартного метода для оценки моделей машинного обучения в будущем.

Хорошее о.о.д. тест должен иметь следующие три условия: [Ссылка 1]

  • Явный сдвиг в распределении
  • Четко определенное намеченное решение
  • Тест, с которым борются большинство текущих моделей.

Быстрое обучение и индуктивная предвзятость. Что определяет индуктивную предвзятость модели, влияющую на то, какие решения поддаются обучению?

1• Структура: Архитектура:

Свертки затрудняют для модели использование местоположения или положения.

Возможные решения:

В обработке естественного языка архитектуры преобразователя используют уровни внимания для понимания контекста путем моделирования отношений между словами.

Свертки не переносят информацию о положении и местоположении от слоя к слою. Идея заключается в добавлении механизмов внимания к декодерной части модели. Мы можем комбинировать механизмы внимания с CNN для использования в подписях к изображениям, которые принимают изображение в качестве входных данных и выводят строку текста, описывающую изображение. В этом контексте под вниманием можно понимать технику, используемую для идентификации областей изображения, релевантных для предсказания определенного слова в подписи.

2• Опыт: данные обучения:

Сегодня предлагаются различные механизмы атаки и защиты для состязательной обстановки. Было продемонстрировано, что изменение обучающих данных для блокировки определенных ярлыков снижает уязвимость со стороны злоумышленников и предвзятость текстур.

3• Цель: функция потерь:

Функция потерь для классификации, кроссэнтропия, побуждает DNN прекращать обучение, как только найден простой предиктор. Простая модификация может заставить нейронные сети использовать всю доступную информацию, например, использовать термины регуляризации.

4• Обучение: оптимизация:

Стохастический градиентный спуск и его варианты склоняют ГНС к обучению простым функциям. Скорость обучения влияет на то, на каких шаблонах фокусируются сети.

4. Резюме

Продолжаются исследования в области глубокого обучения, чтобы найти наилучший подход к быстрому обучению, и вот некоторые из них: [Ссылка 1]

  • Предыдущие знания в предметной области.Создавайте архитектуры моделей, препятствующие быстрому обучению с помощью стратегий расширения данных.
  • Примеры враждебных действий и надежность.Используйте враждебные атаки для проверки надежности моделей посредством незначительных изменений или сдвигов в наборах входных данных модели.
  • Адаптация предметной области, обобщение и рандомизация.Используйте множественные и случайные наборы данных вне распределения (o.o.d.), чтобы обеспечить хорошее обобщение модели.
  • Метаобучение. Используйте модели, которые изучают представления, которые могут быстро адаптироваться к незначительным новым изменениям и условиям.

Перевод Сэмюэля Чейзи

5. Библиография

Ссылка [1]. Быстрое обучение в глубоких нейронных сетях. Роберт Гейрос, Йорн-Хенрик Якобсен3, Клаудио Михаэлис1, Ричард Земель, Виланд Брендель, Матиас Бетге и Феликс А. Вихманн. 1 Университет Тюбингена, Германия. 2. Международная исследовательская школа интеллектуальных систем имени Макса Планка, Германия. 3 Университет Торонто, Институт Вектора, Канада. arXiv: 2004.07780v4 [cs.CV] 26 марта 2021 г.

Ссылка [2]. Стратифицированное обучение: универсальный статистический метод для улучшения обучения в рамках ковариатного сдвига. Максимилиан Аутенриет. Давид ван Дайк. Роберто Тротта. arXiv:2106.11211v1 [stat.ML] 21 июня 2021 г.

Ссылка [3]. Обобщение в антикаузальном обучении. Ники Килбертус. Джамбаттиста Параскандоло. Бернхард Шёлькопф. arXiv:1812.00524v1 [cs.LG], декабрь 2018 г.

Ссылка [4]. Более глубокий взгляд на смещение набора данных. Татьяна Томмаси · Нови Патрисия · Барбара Капуто · Тинне Туйтелаарс. архив: 1505.01257.

Ссылка [5]. Как машина учится предубеждениям. Джесси Эмспак, 29 декабря 2016 г. https://www.scientificamerican.com/article/how-a-machine-learns-prejudice/#

Ссылка [6]. Артефакты аннотаций в данных вывода на естественном языке. Сучин Гуруранган. Свабха Сваямдипта. Омер Леви. Рой Шварц. Сэмюэл Р. Боуман. Ной А. Смит. arXiv:1803.02324v2 [cs.CL] 16 апреля 2018 г.