Избранные статьи/новости на этой неделе.

  • Опубликованное исследование показывает внезапное улучшение производительности обобщения по случайным результатам: переоснащение начинается примерно с 10² шагов, а внезапное улучшение производительности обобщения по случайному предсказанию сообщается примерно на 10⁶ шагах. Таким образом, взвешенное затухание кажется ключом к обобщению. С другой стороны, Янник Килчер предложил гипотезу о том, что уменьшение веса может позволить моделям проводить плавную линию для обобщения, подавляя резкие изменения, что мне показалось очень интересным.
  • Исследователи предположили, что результаты моделей трансформеров в системах изображений, таких как ViT, могут быть связаны с исправлением, а не с трансформерами. Это выдающееся достижение — получить точность 96% при полном обучении CIFAR10 с нуля в системе ViT, для чего требуется большой объем данных.

— — — — — — — — — — — — — — — — — — –

В следующих разделах я представлю различные статьи и документы не только по вышеуказанному содержанию, но и по следующим пяти темам.

  1. Избранные статьи/новости на этой неделе
  2. Пример использования машинного обучения
  3. Документы
  4. Статьи, связанные с технологией машинного обучения
  5. Другие темы

— — — — — — — — — — — — — — — — — — –

1. Избранные статьи/новости на этой неделе

Через некоторое время нейронная сеть внезапно обобщается. — mathai-iclr.github.io

[GROKKING: ОБОБЩЕНИЕ ПЕРЕОБНАРУЖЕНИЯ НА МАЛЕНЬКИХ АЛГОРИТМИЧЕСКИХ НАБОРАХ ДАННЫХ]
Они обнаружили, что чем меньше набор данных, тем больше времени требуется для оптимизации нейронной сети. В то время как переобучение происходит примерно за 10² шагов, обобщение до допустимого набора требует около 10⁵ шагов, что приводит к внезапному увеличению точности случайных результатов. Для этого обобщения было важно использовать распад веса.

Исправление важнее трансформатора?openreview.net

[Патчи — это все, что вам нужно? | OpenReview]
Это исследование механизма, подобного Transformer Encoder, с использованием Conv, который может быть реализован с помощью шести строк PyTorch и более эффективен, чем ViT или MLP-Mixer, и может достигать точности 96% даже на небольших наборах данных, таких как как СИФАР. Из этого результата авторы делают вывод, что исправление изображения было важнее, чем сам преобразователь.

— — — — — — — — — — — — — — — — — — –

2. Пример использования машинного обучения

Китай останется «мировой фабрикой технологий искусственного интеллекта» — kaifulee.medium.com



Это статья о применении технологии искусственного интеллекта в Китае. Говорят, что Китай является мировой фабрикой, что останется верным и в 2020 году, заявив, что он использует технологию ИИ для инноваций в производстве и других областях, поскольку стоимость рабочей силы растет из-за замедления численности населения.

— — — — — — — — — — — — — — — — — — –

3. Документы

Поиск кандидатов на гравитационное линзирование с самостоятельным обучениемarxiv.org

[2110.00023] Добыча сильных гравитационных линз с самоконтролируемым обучением
Исследования по поиску изображений-кандидатов для гравитационного линзирования с самоконтролируемым обучением. Во-первых, они используют предварительно обученную модель с самоконтролируемым обучением для поиска кандидатов по сходству в известных изображениях. После этого они строят классификационную модель с помощью линейной регрессии и других методов. Они заявили, что это может значительно снизить входной барьер при работе с данными опросов и открыть множество возможностей для сотрудничества.

Трансформер, оптимизированный с помощью эволюционного алгоритмаarxiv.org

[2109.08668] Учебник: поиск эффективных преобразователей для языкового моделирования
Это исследование NAS преобразователя для языковых моделей в эволюционном алгоритме. В результате поиска они обнаружили MDHA, сворачивающий информацию между головами, и Squared ReLU, который возводит ReLU в квадрат, и оснащенный ими Primer может сократить время обучения на 1/3–1/4.

Переоценка ResNet и восстановление исходного уровня для процедуры обученияarxiv.org

[2110.00476] ResNet наносит ответный удар: улучшенная процедура обучения в timm
Это исследование, в котором ResNet была переоценена с использованием последней регуляризации и дополнений данных. В результате акк Топ-1 улучшился с 75,3% до 80,4%. Кроме того, ResNet оценивался по-разному в разных газетах, но их процедура обучения была обнародована через timm, и был опубликован новый базовый уровень.

ViT может изучать информацию о сегментации семантической области с помощью обучения с самоконтролемarxiv.org

[2104.14294] Новые свойства трансформеров зрения с самоконтролем
Это исследование самоконтролируемого обучения ViT. Они предлагают DINO, который выполняет обучение с самоконтролем с помощью механизма, подобного дистилляции, для обучения ViT, чтобы их распределения были согласованными на нескольких обрезанных изображениях.

Достичь высокой производительности с меньшим или большим объемом данных. — arxiv.org

[2106.04803] CoAtNet: сочетание свертки и внимания к данным любого размера
Это исследование объединения Transformer и CNN. Во-первых, SelfAttention с относительным позиционным кодированием, затем выберите уровень CNN или Transformer на уровне этапа и создайте этапы. Наконец, используйте ImageNet, чтобы повысить производительность SotA и добиться высокой производительности с меньшим или большим объемом данных.

— — — — — — — — — — — — — — — — — — –

4. Статьи, связанные с технологиями машинного обучения

Разделение фона и переднего планаai.googleblog.com



Этот блог Google посвящен «Omnimatte: связывание объектов и их эффектов в видео» (CVPR2021). В нем говорится, что разделение менее коррелированных частей возможно, позволяя CNN изучать такие вещи, как корреляция между людьми и тенями, и может отделять фон и передний план.

Различия между ViT’s и CNNsyncedreview.com



В статье с комментариями к статье [Видят ли Vision Transformers как сверточные нейронные сети?] обсуждаются различия между ViT и CNN. В нем говорится, что пропущенные соединения ViT для распространения представления более влиятельны, чем соединение ResNet, и могут существенно повлиять на производительность и сходство представления.

— — — — — — — — — — — — — — — — — — –

5. Другие темы

Подобие Tensorflowblog.tensorflow.org



[Введение в сходство TensorFlow — блог TensorFlow]
Введение в сходство Tensorflow, которое может выполнять поиск данных о ближайших соседях и может быть реализовано в 20 строках кода.

— — — — — — — — — — — — — — — — — — –

Другие блоги







Обо мне

Инженер-технолог/Инженер по машинному обучению/Ученый по данным/Магистр физики/ http://github.com/AkiraTOSEI/

Твиттер, я публикую бумажный комментарий из одного предложения.