Когда дело доходит до создания творческих моделей ИИ, конкуренция постоянно растет. Через год после того, как OpenAI ошеломил мир своей моделью GTP-3, исследователи из Пекинской академии искусственного интеллекта (BAAI) в начале июня 2021 года выпустили Wu Dao 2.0: в десять раз больше, чем GPT-3, и, таким образом, это самая большая в мире модель нейронной сети.

Замечательная новость с технологической точки зрения. Поучительная история для европейских и американских политиков и представителей промышленности, чтобы они не отстали полностью. Другими словами, это символ стремления Китая стать мировым лидером в области разработки искусственного интеллекта.

FastMoE имеет решающее значение

Ву Дао использовал технику под названием FastMoE, чтобы масштабировать обучение до миллиардов параметров. Название проекта подразумевает, что он вдохновлен архитектурой Google Mixture of Experts (MoE), которая использовалась для обучения архитектуры Switch Transformer. MoE — это парадигма 1990-х годов, которая разделяет проблемную область на нескольких экспертов и использует механизм блокировки знаний для рассеивания знаний. MoE использовался для ускорения глубокого обучения нейронных сетей, машинного обучения и науки о данных. Однако обычно для этого требуется очень специализированное снаряжение. FastMoE — это облегченное решение MoE, созданное на основе PyTorch, которое хорошо масштабируется на обычном оборудовании. FastMoE сыграл решающую роль в масштабировании обучения FastMoE за пределы 1 триллиона параметров.

Мультимодальность

Wu Dao 2.0 — это мультимодальный опыт. Он может учиться как на тексте, так и на графике и выполнять задачи, требующие обеих форм данных (на что GPT-3 не способен). В последние годы мы наблюдаем переход от систем ИИ, специализирующихся на управлении одним каналом ввода, к многомодальности.

Компьютерное зрение и обработка естественного языка, которые исторически были двумя основными областями глубокого обучения, по прогнозам, в будущем будут объединены в любой системе ИИ. Мир представляет собой мультимодальную среду. Человеческий мозг имеет несколько органов чувств. Разумно разработать ИИ, которые воспроизводят эту возможность.

Основная архитектура соответствует стандарту GLM 2.0.

Wu Dao 2.0 построен на архитектуре GLM 2.0, опубликованной в марте этого года. GLM превосходит традиционные архитектуры преобразователей, такие как BERT или Turing-NLG, в таких аспектах, как передача задач и точная настройка, что позволяет повысить производительность с меньшими моделями.

Приложение Wu Dao 2.0. — на пути к AI Grid

По словам Тан Цзе, заместителя директора BAAI, существует единственная основная цель: исследование и развертывание когнитивных способностей машин (тесты Тьюринга).

Эта демонстрация была презентацией Хуа Чжибина, виртуального ученика, который научился сочинять музыку, писать стихи, рисовать картинки и программировать с помощью Wu Dao 2.0. По сравнению с GPT-3, Wu Dao 2.0, по-видимому, более точно соответствует человеческой памяти и системам обучения, поскольку исключается забывание ранее полученных знаний.

Эксперты по комбинированию

У Дао 2.0 преподавали с использованием FastMoE, подхода машинного обучения, похожего на Google Mixture of Experts (MoE). Цель состоит в том, чтобы обучить отдельные модели для каждой модальности в рамках более крупной модели. Система стробирования позволяет более крупной модели выборочно консультироваться с моделями для определенных задач.

По сравнению с MoE от Google, FastMoE имеет открытый исходный код и не требует специального оборудования, что делает его более демократичным. Более того, это позволило исследователям BAAI устранить препятствия на пути обучения, не позволяющие таким моделям, как GPT-3, достичь отметки в триллион параметров. Согласно официальному блогу BAAI на WeChat, «[FastMoE] прост в использовании, адаптируется и эффективен, а также способствует крупномасштабному параллельному обучению». Будущее крупномасштабных систем искусственного интеллекта, несомненно, пройдет через эти обучающие рамки.

Алгоритм P-Tuning эффективно используется для улучшения понимания

Еще одним технологическим достижением в Wu Dao 2.0 является P-Tuning 2.0, который устраняет разрыв между несколькими выстрелами и контролирует обучение, чтобы улучшить навыки понимания языка моделей-трансформеров.

Параметры и статистика

У Дао, что переводится как Просветление, — это еще одна языковая модель, похожая на GPT. Директор по политике OpenAI Джек Кларк называет этот образец копирования GPT-3 «распространением модели». Тем не менее, Wu Dao 2.0 является самой большой копией с ошеломляющими 1,75 триллионами параметров (10x GPT-3).

По словам Коко Фэн из South China Morning Post, Wu Dao 2.0 был обучен на 4,9 ТБ высококачественных текстовых и графических данных, что превосходит набор обучающих данных GPT-3 в 570 ГБ. Тем не менее стоит отметить, что исследователи OpenAI выбрали 45 ТБ данных, чтобы получить 570 ГБ чистых данных.

Данные обучения разделены на следующие категории:

● Wu Dao Corpora содержит 1,2 терабайта текстовых данных на китайском языке.

● 2,5 терабайта графических данных на китайском языке.

● Набор данных Pile содержит 1,2 терабайта текстовых данных на английском языке.

CogView используется для преобразования текста в изображения

У Дао 2.0 может выполнять различные действия как в области языка, так и в области изображения. Модели-трансформеры, такие как DALL-E от OpenAI, продемонстрировали потрясающую производительность в различных задачах, от тестирования до создания изображений. В Wu Dao 2.0 используется аналогичный подход под названием CogView, который эффективно генерирует насыщенные изображения из текстовых описаний. Существует несколько курсов и онлайн-сертификатов по науке о данных, убедитесь, что вы выбрали сертификат, соответствующий вашим потребностям.

Оценка по ряду языковых и графических эталонов

Wu Dao 2.0 продемонстрировал высочайшую производительность в отношении естественного языка и компьютерного зрения в девяти ведущих в отрасли тестах:

  1. Возможности SOTA ImageNet превосходят возможности OpenAI CLIP; Обнаружение знаний LAMA превосходит AutoPrompt; LAMABADA Cloze превосходит Microsoft Turing NLG.
  2. FewGLUE SuperGLUE: превосходит GPT-3 и достигает лучших в отрасли результатов обучения за несколько выстрелов;
  3. Нулевая SOTA для землепользования от UC Merced превосходит OpenAI CLIP; Диаграмма генерации текста MS COCO: DALLE превосходит OpenAI;
  4. Производительность поиска изображений MS COCO на английском языке выше, чем у OpenAI CLIP и Google ALIGN;
  5. Многоязычный графический поиск MS COCO превосходит по производительности лучшую многоязычную и мультимодальную модель предварительной подготовки, доступную в настоящее время, UC2, M3P; Многоязычный графический поиск Multi 30K превосходит по производительности лучшую многоязычную и мультимодальную модель предварительной подготовки, доступную в настоящее время, UC2, M3P.
  6. Wu Dao 2.0 — еще одно выдающееся достижение в этой новой эре огромных моделей-трансформеров. Модель основана на передовых исследованиях и чрезвычайно сложных инженерных методологиях машинного обучения. Несколько принципов дизайна Wu Dao послужат мотивацией для продолжения расширения возможностей моделей-трансформеров.

Превосходство унифицированных коммуникаций в Multi 30K (многоязычный графический поиск).

Наконец, Wu Dao 2.0 представил Хуа Чжибина, первого в мире виртуального китайского студента. Хуа способна учиться, рисовать и сочинять стихи. Со временем она сможет научиться программировать. Эта способность У Дао 2.0 к обучению резко контрастирует с GPT-3. Выбор сертификата для анализа данных поможет человеку узнать больше о тактике работы с данными.

Другие подробности о том, как и чему обучался У Дао 2.0, пока недоступны, что затрудняет прямое сравнение его с GPT-3. С другой стороны, новая языковая модель демонстрирует амбиции Китая в области искусственного интеллекта и исследовательские инициативы мирового уровня. Без сомнения, в ближайшие годы инновации в области искусственного интеллекта будут ускоряться, и многие из этих достижений принесут пользу другим отраслям.

Заключение

Доктор Кай-Фу Ли, один из светил ИИ и инвестор, который помог разработать как минимум семь единорогов на базе ИИ, недавно рассказал в Гонконгском научно-технологическом парке о потенциале трансформаторов и тонкой настройке огромных предварительно обученных моделей, таких как У Дао 2.0. Эти модели могут быть адаптированы для различных отраслей и целей, включая образование, финансы, юриспруденцию, развлечения и, что наиболее важно, здравоохранение и научные исследования.

Применение трансформаторов в биологических исследованиях — это технологии будущего, которые, вероятно, приведут к открытиям, приносящим пользу людям независимо от их местонахождения. И, несмотря на торговые баталии, мы надеемся, что страны будут заниматься биологическими исследованиями.