Публикации по тегам transformers

Публикации по теме 'transformers'

Демистификация эффективного внимания к себе

Практический обзор Введение Архитектура Transformer [1] сыграла важную роль в некоторых из крупнейших прорывов в области глубокого обучения за последние годы. Особенно в области обработки естественного языка (NLP) предварительно обученные модели автокодирования (такие как BERT [2]) и авторегрессионные модели (такие как GPT-3 [3]) постоянно превосходят современные и достичь человеческого уровня генерации текста. Одним из наиболее важных нововведений Transformer является..

Революция в обработке естественного языка: раскрытие потенциала преобразователей дальнего действия

В последние годы область обработки естественного языка (NLP) стала свидетелем замечательных достижений благодаря появлению новаторской модели под названием Long-Range Transformer. Благодаря своей способности обрабатывать огромные объемы текстовых данных при захвате долгосрочных зависимостей, Long-Range Transformer произвел революцию в том, как машины понимают и генерируют человеческий язык. В этой статье мы углубимся в концепцию трансформаторов дальнего действия, изучим их архитектуру,..

Объяснение документов 49: Шиншилла

В этой статье исследованы оптимальный размер модели и количество токенов для обучения LLM-трансформера в рамках заданного вычислительного бюджета и обнаружено, что текущие LLM недостаточно обучены из-за упора на масштабирование моделей при сохранении постоянного объема обучающих данных. Обучая более 400 языковых моделей в диапазоне от 70 миллионов до более 16 миллиардов параметров на 5-500 миллиардах токенов, мы обнаружили, что для оптимального для вычислений обучения размер модели и..

Microsoft и Калифорнийский университет в Лос-Анджелесе представляют ClimaX: базовую модель для моделирования климата и погоды

Изменение климата и экстремальные погодные явления сделали моделирование погоды и климата сложной, но важной реальной задачей. В то время как современные современные подходы, как правило, используют численные модели, основанные на физической информации, собранной из атмосферы, разработка мощных моделей глубокого обучения и растущее…

Управление наборами данных и моделями в вашей организации Hugging Face

В этом видео я покажу вам, как управлять моделями и наборами данных в вашей собственной организации Hugging Face: Создавая свою организацию, Создание частных репозиториев с помощью интерфейса командной строки Hugging Face, Импорт моделей и наборов данных с помощью git, Редактирование наборов данных и карточек моделей, Установка разрешений для членов организации ⭐️⭐️⭐️ Не забудьте подписаться, чтобы получать уведомления о будущих видео ⭐️⭐️⭐️ Набор данных:..

Vision Transformers объясняются через код

Трансформеры появляются повсюду, они уже захватили НЛП, а теперь они приходят и к компьютерному зрению! Вы, должно быть, слышали о преобразователях зрения и о том, сколько из них превосходят традиционные CNN. Но как они работают? Чтение статей или просмотр учебных пособий, объясняющих структуру преобразователей зрения, может дать вам общее понимание, но будет ли этого понимания достаточно для его создания? Я так не думаю. Я считаю, что лучший способ узнать о таких сложных системах —..

Обслуживание GPT-2 в Google Cloud Platform

DS в реальном мире Обслуживание GPT-2 в рабочей среде на Google Cloud Platform Путешествие по CloudOps Вы пробовали выключить и снова включить его? Наша миссия в Deepdesk - разгрузить контакт-центры с помощью ИИ. Мы предоставляем рекомендации по ответам в реальном времени (подумайте о Smart Compose) и автоматизацию повторяющихся диалогов. Мы делаем это, обучая модели машинного обучения реальным разговорам. Сначала мы извлекаем часто используемые ответы, запуская алгоритм..