Публикации по теме 'vision-transformer'


MLP-Mixer: полностью основанная на MLP архитектура для машинного зрения — Резюме статьи
Статья : MLP-Mixer: полностью основанная на MLP архитектура для машинного зрения Ссылка : https://arxiv.org/abs/2105.01601 Авторы : Илья Толстихин, Нил Хоулсби, Александр Колесников, Лукас Бейер, Сяохуа Чжай, Томас Унтертинер, Джессика Юнг, Андреас Штайнер, Даниэль Кейзерс, Якоб Ушкорейт, Марио Лучич, Алексей Досовицкий Теги : машинное обучение, глубокое обучение, архитектуры MLP, архитектуры глубокого обучения Код : https://github.com/google-research/vision_transformer..

Чтение статьи — SwinIR: восстановление изображения с помощью Swin Transformer
Vision Transformer (ViT) завоевал огромное внимание и успех с момента своего рождения в 2020 году. Одним из важных вариантов ViT является Swin Transformer , в котором используются иерархические размеры патчей и локальное само-внимание для решения многомасштабных и проблема вычислительной сложности на изображениях с высоким разрешением. Сегодня я анализирую документ ICCV 2021 года, используя Swin Transformer для целей шумоподавления изображения: SwinIR: Восстановление изображения с..

Начало работы с IPU в Paperspace
Пошаговое техническое руководство о том, как начать работу с IPU Graphcore в Paperspace на примере нашего преобразователя зрения HuggingFace Optimum. Paperspace — это ведущая в отрасли платформа MLOP, специализирующаяся на высокопроизводительных вычислениях по запросу. Благодаря новому партнерству с Graphcore любой пользователь Paperspace теперь может быстро получить доступ к технологии Intelligent Processing Unit (IPU) за считанные секунды в веб-браузере через Gradient Notebooks,..

Четыре статьи по глубокому обучению конца 2021 года, которые окажут значительное влияние на 2022 год
Представлено с краткими резюме Недавно я начал сотрудничать с командой MarkTechPost , калифорнийской новостной платформы искусственного интеллекта. Моя роль заключается в том, чтобы каждый месяц выбирать две статьи, которые я считаю фундаментальными, и писать краткое, простое для понимания резюме. Я решил разместить эти сводки (честно говоря, сводку этих сводок) и здесь, на Medium, и, так как немного опоздал, я…

Резюме статьи: Vision Transformer для небольших наборов данных
Краткое содержание: В предыдущих попытках применить преобразователи к приложениям машинного зрения низкая локальность , индуктивное смещение или предположения, которые сеть делает в отношении данных, создавали требования к большому набору данных для достижения приемлемой точности. В этом документе используются два метода: локальное самозатухание (LSA) и токенизация сдвинутых исправлений (SPT) для снижения требований к размеру набора данных. Где это вписывается в ваш рабочий..

Трансформеры в понимании видео
Видео повсюду, и со временем их количество только увеличивается. Одним из способов решения проблем, связанных с видео, является использование отдельных кадров для классификации. Эта стратегия не принимает во внимание временные изменения. Исследователи машинного обучения предложили множество решений для работы с пространством и временем, и одним из последних методов является использование преобразователей. Трансформеры были введены в обработку естественного языка. Сейчас трансформеры..

Трансформеры видения: обзор - часть I
Эта серия статей призвана объяснить механизм Vision Transformers (ViT) [2] , который представляет собой чистую модель Transformer, используемую в качестве визуальной основы в задачах компьютерного зрения. Он также указывает на ограничения ViT и предоставляет обзор последних улучшений. Посты разделены на три части: Часть I - Введение в трансформатор и ViT Часть II и III - Ключевые проблемы ViT и ее совершенствование. Этот пост является первой частью серии из трех статей о..