Избранные статьи/новости на этой неделе.
- Опубликованное исследование показывает внезапное улучшение производительности обобщения по случайным результатам: переоснащение начинается примерно с 10² шагов, а внезапное улучшение производительности обобщения по случайному предсказанию сообщается примерно на 10⁶ шагах. Таким образом, взвешенное затухание кажется ключом к обобщению. С другой стороны, Янник Килчер предложил гипотезу о том, что уменьшение веса может позволить моделям проводить плавную линию для обобщения, подавляя резкие изменения, что мне показалось очень интересным.
- Исследователи предположили, что результаты моделей трансформеров в системах изображений, таких как ViT, могут быть связаны с исправлением, а не с трансформерами. Это выдающееся достижение — получить точность 96% при полном обучении CIFAR10 с нуля в системе ViT, для чего требуется большой объем данных.
— — — — — — — — — — — — — — — — — — –
В следующих разделах я представлю различные статьи и документы не только по вышеуказанному содержанию, но и по следующим пяти темам.
- Избранные статьи/новости на этой неделе
- Пример использования машинного обучения
- Документы
- Статьи, связанные с технологией машинного обучения
- Другие темы
— — — — — — — — — — — — — — — — — — –
1. Избранные статьи/новости на этой неделе
Через некоторое время нейронная сеть внезапно обобщается. — mathai-iclr.github.io
[GROKKING: ОБОБЩЕНИЕ ПЕРЕОБНАРУЖЕНИЯ НА МАЛЕНЬКИХ АЛГОРИТМИЧЕСКИХ НАБОРАХ ДАННЫХ]
Они обнаружили, что чем меньше набор данных, тем больше времени требуется для оптимизации нейронной сети. В то время как переобучение происходит примерно за 10² шагов, обобщение до допустимого набора требует около 10⁵ шагов, что приводит к внезапному увеличению точности случайных результатов. Для этого обобщения было важно использовать распад веса.
Исправление важнее трансформатора? — openreview.net
[Патчи — это все, что вам нужно? | OpenReview]
Это исследование механизма, подобного Transformer Encoder, с использованием Conv, который может быть реализован с помощью шести строк PyTorch и более эффективен, чем ViT или MLP-Mixer, и может достигать точности 96% даже на небольших наборах данных, таких как как СИФАР. Из этого результата авторы делают вывод, что исправление изображения было важнее, чем сам преобразователь.
— — — — — — — — — — — — — — — — — — –
2. Пример использования машинного обучения
Китай останется «мировой фабрикой технологий искусственного интеллекта» — kaifulee.medium.com
Это статья о применении технологии искусственного интеллекта в Китае. Говорят, что Китай является мировой фабрикой, что останется верным и в 2020 году, заявив, что он использует технологию ИИ для инноваций в производстве и других областях, поскольку стоимость рабочей силы растет из-за замедления численности населения.
— — — — — — — — — — — — — — — — — — –
3. Документы
Поиск кандидатов на гравитационное линзирование с самостоятельным обучением — arxiv.org
[2110.00023] Добыча сильных гравитационных линз с самоконтролируемым обучением
Исследования по поиску изображений-кандидатов для гравитационного линзирования с самоконтролируемым обучением. Во-первых, они используют предварительно обученную модель с самоконтролируемым обучением для поиска кандидатов по сходству в известных изображениях. После этого они строят классификационную модель с помощью линейной регрессии и других методов. Они заявили, что это может значительно снизить входной барьер при работе с данными опросов и открыть множество возможностей для сотрудничества.
Трансформер, оптимизированный с помощью эволюционного алгоритма — arxiv.org
[2109.08668] Учебник: поиск эффективных преобразователей для языкового моделирования
Это исследование NAS преобразователя для языковых моделей в эволюционном алгоритме. В результате поиска они обнаружили MDHA, сворачивающий информацию между головами, и Squared ReLU, который возводит ReLU в квадрат, и оснащенный ими Primer может сократить время обучения на 1/3–1/4.
Переоценка ResNet и восстановление исходного уровня для процедуры обучения — arxiv.org
[2110.00476] ResNet наносит ответный удар: улучшенная процедура обучения в timm
Это исследование, в котором ResNet была переоценена с использованием последней регуляризации и дополнений данных. В результате акк Топ-1 улучшился с 75,3% до 80,4%. Кроме того, ResNet оценивался по-разному в разных газетах, но их процедура обучения была обнародована через timm, и был опубликован новый базовый уровень.
ViT может изучать информацию о сегментации семантической области с помощью обучения с самоконтролем — arxiv.org
[2104.14294] Новые свойства трансформеров зрения с самоконтролем
Это исследование самоконтролируемого обучения ViT. Они предлагают DINO, который выполняет обучение с самоконтролем с помощью механизма, подобного дистилляции, для обучения ViT, чтобы их распределения были согласованными на нескольких обрезанных изображениях.
Достичь высокой производительности с меньшим или большим объемом данных. — arxiv.org
[2106.04803] CoAtNet: сочетание свертки и внимания к данным любого размера
Это исследование объединения Transformer и CNN. Во-первых, SelfAttention с относительным позиционным кодированием, затем выберите уровень CNN или Transformer на уровне этапа и создайте этапы. Наконец, используйте ImageNet, чтобы повысить производительность SotA и добиться высокой производительности с меньшим или большим объемом данных.
— — — — — — — — — — — — — — — — — — –
4. Статьи, связанные с технологиями машинного обучения
Разделение фона и переднего плана — ai.googleblog.com
Этот блог Google посвящен «Omnimatte: связывание объектов и их эффектов в видео» (CVPR2021). В нем говорится, что разделение менее коррелированных частей возможно, позволяя CNN изучать такие вещи, как корреляция между людьми и тенями, и может отделять фон и передний план.
Различия между ViT’s и CNN — syncedreview.com
В статье с комментариями к статье [Видят ли Vision Transformers как сверточные нейронные сети?] обсуждаются различия между ViT и CNN. В нем говорится, что пропущенные соединения ViT для распространения представления более влиятельны, чем соединение ResNet, и могут существенно повлиять на производительность и сходство представления.
— — — — — — — — — — — — — — — — — — –
5. Другие темы
Подобие Tensorflow — blog.tensorflow.org
[Введение в сходство TensorFlow — блог TensorFlow]
Введение в сходство Tensorflow, которое может выполнять поиск данных о ближайших соседях и может быть реализовано в 20 строках кода.
— — — — — — — — — — — — — — — — — — –
Другие блоги
Обо мне
Инженер-технолог/Инженер по машинному обучению/Ученый по данным/Магистр физики/ http://github.com/AkiraTOSEI/
Твиттер, я публикую бумажный комментарий из одного предложения.