Graphcore и Hugging Face запускают новую линейку трансформеров с поддержкой IPU

Graphcore и Hugging Face значительно расширили спектр модальностей и задач, доступных в Hugging Face Optimum, библиотеке с открытым исходным кодом для оптимизации производительности. Разработчики теперь имеют удобный доступ к широкому спектру готовых моделей Hugging Face Transformer, оптимизированных для обеспечения максимально возможной производительности на IPU Graphcore.

Включая модель трансформера BERT, доступную вскоре после Запуска Optimum Graphcore, разработчики теперь могут получить доступ к 10 моделям, охватывающим обработку естественного языка (NLP), речь и компьютерное зрение, которые поставляются с файлами конфигурации IPU и готовыми к использованию предварительными настройками. тренированные и точно настроенные веса модели.

Новые модели Оптимум

Компьютерное зрение

ViT (Vision Transformer) — это прорыв в распознавании изображений, использующий в качестве основного компонента механизм преобразования. Когда изображения вводятся в ViT, они делятся на небольшие фрагменты, подобно тому, как слова обрабатываются в языковых системах. Каждый патч кодируется преобразователем (встраиванием), а затем может обрабатываться индивидуально.

НЛП

GPT-2 (Generative Pre-trained Transformer 2) — это модель преобразователя генерации текста, предварительно обученная на очень большом массиве данных на английском языке в режиме самоконтроля. Это означает, что он был предварительно обучен только необработанным текстам, и люди не маркировали их каким-либо образом (поэтому он может использовать много общедоступных данных) с автоматическим процессом для создания входных данных и меток из этих текстов. Точнее, он обучен генерировать тексты из подсказки, угадывая очередное слово в предложениях.

RoBERTa (надежно оптимизированный подход BERT) — это модель преобразователя, которая (как и GPT-2) предварительно обучается на большом массиве данных на английском языке в режиме самоконтроля. Точнее, RoBERTa был предварительно обучен с целью моделирования маскированного языка (MLM). Принимая предложение, модель случайным образом маскирует 15% слов во входных данных, затем пропускает все замаскированное предложение через модель и должна предсказать замаскированные слова. Roberta можно использовать для моделирования маскированного языка, но в основном он предназначен для тонкой настройки для последующей задачи.

DeBERTa (BERT с улучшенным декодированием и распутанным вниманием) — это предварительно обученная модель нейронного языка для задач НЛП. DeBERTa адаптирует модели BERT 2018 и RoBERTa 2019, используя два новых метода — распутанный механизм внимания и усовершенствованный декодер маски — значительно повышая эффективность предварительного обучения модели и производительность последующих задач.

BART — это модель преобразователя кодер-кодировщик (seq2seq) с двунаправленным (подобным BERT) кодировщиком и авторегрессионным (подобным GPT) декодером. BART предварительно обучается путем (1) искажения текста с помощью произвольной функции шумоподавления и (2) изучения модели для восстановления исходного текста. BART особенно эффективен при тонкой настройке для генерации текста (например, обобщение, перевод), но также хорошо работает для задач понимания (например, классификация текста, ответы на вопросы).

LXMERT (Learning Cross-Modality Encoder Representations from Transformers) — мультимодальная модель преобразования для изучения зрительных и языковых представлений. Он имеет три кодировщика: кодировщик объектных отношений, кодировщик языка и кодировщик кросс-модальности. Он предварительно обучен с помощью комбинации моделирования маскированного языка, выравнивания текста визуального языка, регрессии ROI-функций, моделирования маскированных визуальных атрибутов, моделирования маскированных визуальных объектов и визуальных ответов на вопросы. Он достиг самых современных результатов в наборах данных визуальных вопросов и ответов VQA и GQA.

T5 (преобразователь преобразования текста в текст) — это революционно новая модель, которая может брать любой текст и преобразовывать его в формат машинного обучения для перевода, ответов на вопросы или классификации. Он представляет собой унифицированную структуру, которая преобразует все языковые проблемы, связанные с текстом, в формат преобразования текста в текст для переноса обучения. Таким образом, он упростил способ использования одной и той же модели, целевой функции, гиперпараметров и процедуры декодирования в разнообразном наборе задач НЛП.

Речь

HuBERT (Hidden-Unit BERT) — это модель распознавания речи с самоконтролем, предварительно обученная на аудио, изучающая комбинированную акустическую и языковую модель на основе непрерывных входных данных. Модель HuBERT либо соответствует, либо улучшает современную производительность wav2vec 2.0 в тестах Librispeech (960 ч) и Libri-light (60 000 ч) с подмножествами тонкой настройки 10 минут, 1 час, 10 часов, 100 часов и 960 часов.

Wav2Vec2 — это предварительно обученная самоконтролируемая модель для автоматического распознавания речи. Используя новую контрастивную цель предварительной подготовки, Wav2Vec2 изучает мощные речевые представления из больших объемов немаркированных речевых данных с последующей точной настройкой небольшого количества расшифрованных речевых данных, превосходя лучшие полу-контролируемые методы, будучи концептуально проще.

Hugging Face Optimum Graphcore: построение на прочном партнерстве

Graphcore присоединилась к партнерской программе Hugging Face Hardware Partner в 2021 году в качестве члена-основателя, и обе компании разделяют общую цель — снизить барьеры для новаторов, стремящихся использовать возможности машинного интеллекта.

С тех пор Graphcore и Hugging Face активно сотрудничали, чтобы сделать обучение моделей трансформаторов на IPU быстрым и легким, и первая модель Optimum Graphcore (BERT) была выпущена в прошлом году.

Преобразователи оказались чрезвычайно эффективными для широкого спектра функций, включая извлечение признаков, генерацию текста, анализ тональности, перевод и многое другое. Такие модели, как BERT, широко используются клиентами Graphcore в огромном количестве приложений, включая кибербезопасность, автоматизацию голосовых вызовов, обнаружение наркотиков и перевод.

Оптимизация их производительности в реальном мире требует значительного времени, усилий и навыков, недоступных многим компаниям и организациям. Предоставив библиотеку моделей трансформеров с открытым исходным кодом, Hugging Face напрямую решила эти проблемы. Интеграция IPU с HuggingFace также позволяет разработчикам использовать не только модели, но и наборы данных, доступные в HuggingFace Hub.

Теперь разработчики могут использовать системы Graphcore для обучения 10 различных типов современных моделей трансформаторов и доступа к тысячам наборов данных с минимальной сложностью кодирования. В рамках этого партнерства мы предоставляем пользователям инструменты и экосистему для простой загрузки и точной настройки современных предварительно обученных моделей для различных областей и последующих задач.

Использование новейшего аппаратного и программного обеспечения Graphcore.

В то время как члены постоянно расширяющейся пользовательской базы Hugging Face уже смогли воспользоваться преимуществами скорости, производительности, мощности и экономичности технологии IPU, сочетание последних аппаратных и программных выпусков от Graphcore раскроет еще больший потенциал.

Что касается аппаратного обеспечения, то Bow IPU, анонсированный в марте и в настоящее время поставляемый клиентам, является первым процессором в мире, использующим технологию трехмерного стекирования Wafer-on-Wafer (WoW) и обладающим хорошо задокументированными преимуществами IPU. на следующий уровень. Благодаря новаторским достижениям в вычислительной архитектуре и внедрении кремния, связи и памяти каждый IPU Bow обеспечивает до 350 терафлопс вычислений ИИ — впечатляющее увеличение производительности на 40% и до 16% большую энергоэффективность по сравнению с IPU предыдущего поколения. . Важно отметить, что пользователи Hugging Face Optimum могут беспрепятственно переключаться с IPU предыдущего поколения на процессоры Bow, поскольку не требуется никаких изменений кода.

Программное обеспечение также играет жизненно важную роль в раскрытии возможностей IPU, поэтому, естественно, Optimum предлагает возможность plug-and-play с помощью простого в использовании SDK Poplar от Graphcore, который сам получил крупное обновление 2.5. Poplar упрощает обучение современных моделей на современном оборудовании благодаря полной интеграции со стандартными платформами машинного обучения, включая PyTorch, PyTorch Lightning и TensorFlow, а также оркестровке и развертыванию. такие инструменты, как Docker и Kubernetes. Обеспечение совместимости Poplar с этими широко используемыми сторонними системами позволяет разработчикам легко переносить свои модели с других своих вычислительных платформ и начать использовать преимущества расширенных возможностей искусственного интеллекта IPU.

Начните работу с моделями Optimum Graphcore Hugging Face

Если вы заинтересованы в объединении преимуществ технологии IPU с сильными сторонами моделей-трансформеров, вы можете загрузить последнюю серию моделей Optimum Graphcore с веб-сайта Hugging Face или получить доступ к коду из Оптимального репозитория Hugging Face на GitHub.

Кроме того, Graphcore создал обширную страницу ресурсов для разработчиков, где вы можете найти IPU Model Garden — репозиторий готовых к развертыванию приложений машинного обучения, включая компьютерное зрение, НЛП, графовые сети и многое другое — наряду с массивом документации, руководств, обучающие видео, вебинары и многое другое. Вы также можете получить доступ к репозиторию GitHub Graphcore и полному списку моделей Hugging Face Optimum с этой страницы.