Одна из самых важных национальных учебных заведений Китая, Шанхайский университет Цзяо Тонг, в начале этого года запустила свой суперкомпьютер нового поколения. Созданная на базе процессоров Intel Xeon Gold 6248, новая система под названием Pi 2.0 будет способствовать продвижению работы их исследователей в различных областях науки и совершенствованию реализаций в области искусственного интеллекта (ИИ) и машинного обучения (МО).

«В университете и центре высокопроизводительных вычислений мы считаем себя новаторами в области решений, — заявил доктор Джеймс Лин, заместитель директора Центра высокопроизводительных вычислений Шанхайского университета Цзяо Тонг. «Мы очень открыты для первопроходцев, всегда пытаясь использовать новые технологии, которые весьма многообещающи для приложений наших пользователей».

Pi 2.0 дополняет предыдущую университетскую систему p, гетерогенную систему с производительностью 260 терафлопс, построенную на процессорах Intel Xeon E5, картах NVIDIA и межсоединении с архитектурой InfiniBand. Он был установлен в 2013 году и последние шесть лет обслуживает студентов и преподавателей. p предоставил ученым-вычислителям платформу для запуска кода как на традиционной, так и на графической архитектуре. Но с Pi2.0, созданным Inspur, Центр высокопроизводительных вычислений изменил парадигму, решив работать только на новейшей архитектуре Intel.

«За последние шесть лет многое изменилось, — заявил Лин. «Поскольку исследования в университете обращались ко все более сложным и глубоким проблемам и включали новые области машинного обучения и больших данных, все больше студентов нуждались в вычислительных циклах, которых не было на нашей нынешней машине. Очереди на рабочие места исследователей становятся все длиннее и длиннее, задерживая важные исследовательские работы».

Pi 2.0 — это система из 658 узлов с двухпроцессорными серверами Inspur и 26 320 вычислительными ядрами, в том числе 658 узлов с процессорами Intel Xeon Scalable 2-го поколения. Это крупнейший вычислительный кластер в университетской системе Китая и один из двух самых быстрых. Вычислительные узлы соединены фабрикой архитектуры Intel Omni-Path и поддерживаются масштабируемой параллельной файловой системой Lustre с использованием дисков серии Intel SSD Data Center.

Успешная поддержка смены парадигмы в параллельном программировании

Помимо потребности в дополнительных мощностях для решения длинных пользовательских очередей, Лин и Стивен Ванг, руководители отдела технической поддержки Центра высокопроизводительных вычислений, заметили изменения в потребностях приложений, которые помогли определить тип нового суперкомпьютера, который они будут развертывать.

«В традиционных приложениях для высокопроизводительных вычислений, таких как вычислительная гидродинамика, молекулярная динамика и биоинформатика, а также в программах обработки больших данных разработчики все чаще используют искусственный интеллект», — добавил Ван. «Некоторые используют ИИ для поиска новых материалов, науки о жизни для обнаружения рака и других заболеваний. Другие просто хотят использовать более масштабируемые коды на гораздо большем количестве ядер».

Но архитектурный скачок, который повлияет на существующие коды, ранее разработанные для запуска модели CUDA, — немалая перемена для университетских ученых и исследователей в области вычислений, особенно для тех, кто запускал коды на графических процессорах p. Для программистов, создавших свои приложения для CUDA, переход к интерфейсу передачи сообщений (MPI) и OpenMP для больших многоядерных распределенных машин, таких как Pi 2.0, означает перенос кода. И знание того, когда использовать эти две модели для вычислений с общей памятью и распределенных вычислений, может означать предоставление важной поддержки пользователям. Стивен Ван говорит, что они готовы помочь пользователям изменить парадигму.

«У нас есть опыт модернизации с CUDA на IA, — сказал Ван. «Поэтому, если пользователям нужна помощь, мы можем помочь им перенести их код, например коды биологии, с графических процессоров на новую машину. Даже для некоторых больших внутренних кодов с высокой масштабируемостью мы можем помочь им перенести их на новую машину».

Отдел Вана обеспечивает несколько уровней поддержки переноса. Пользователи могут отправлять свои вопросы по электронной почте, например, о компиляции, MPI, OpenMP и т. д. Или, для других пользователей, особенно с большими внутренними кодами, команда Вана может получить доступ к их коду и предоставить практическую поддержку переноса, если им предоставлены соответствующие разрешения. Группа поддержки помогает исследователям портировать и оптимизировать как открытый исходный код, так и собственные приложения. Коммерческое программное обеспечение обычно запускается с последними обновлениями поставщика для новой системы.

Крупные пользователи с кодами высокой масштабируемости будут одними из первых, кто запустит свою работу на Pi 2.0. Начнем с того, что некоторые узлы будут выделены для них, чтобы портировать их существующие коды. Многие из них являются традиционными приложениями для высокопроизводительных вычислений, например, внутренний высокомасштабируемый код для транспортировки, ускорения и излучения частиц, используемый для исследований лазеров. Другой — большой астрономический код nbody.

Новая машина не только предложит университетским исследователям уровень масштабируемости, которого у них никогда не было, но и большую мощность, они смогут улучшить свои исследования, используя преимущества новых технологий в архитектуре.

«Пользователи не могли тестировать и внедрять оптимизации на существующей платформе, — сказал Лин, — потому что она была очень загружена. Пользователи ИИ хотели протестировать свои усовершенствованные коды, но на них выстроилась длинная очередь. Новая машина в семь раз больше, чем текущая система, что дает им больше возможностей для тестирования и запуска оптимизированных кодов. К тому же, p шесть лет; ему не хватает функций, которые можно найти в последних процессорах. В Pi 2.0 есть новые технологии искусственного интеллекта и машинного обучения для ускорения глубокого обучения и вывода, которые пользователи с удовольствием экспериментируют и внедряют».

Решение проблем с питанием и хранением

Хотя Pi2.0 не является огромной машиной, энергопотребление было критически важным для Центра высокопроизводительных вычислений.

«Мы должны поддерживать эффективность использования энергии (PUE) на уровне 1,3», — прокомментировал Ван. «С 26 320 ядрами p 2.0 будет в семь-восемь раз больше, чем p. Но более эффективная технология процессоров означает, что энергопотребление Pi 2.0 будет только в два-три раза больше, чем у его предшественника», — заключил Ван.

Еще одной ключевой проблемой была файловая система Lustre. Шанхайский университет Цзяо Тонг проводит Проект генома тысячи культур. Исследователи геномики — это большая группа пользователей суперкомпьютеров Центра высокопроизводительных вычислений. Исторически Lustre был разработан для обслуживания очень больших наборов данных, в то время как сборка и анализ геномики выполняют множество заданий, которые выполняют запросы небольших данных — до 1000 за раз. С ростом числа выполняемых работ в области геномики Lustre становился узким местом. В новом суперкомпьютере файловая система Lustre включает SSD-накопители Intel для ускорения операций ввода-вывода в кластере хранения.

С Pi2.0 Шанхайский университет Цзяо Тонг может похвастаться самым большим суперкомпьютером в университетской системе Китая. С вычислительной мощностью, в семь раз превышающей его предыдущий суперкомпьютер, исследователи смогут расширить важную работу в области науки и вычислительных технологий. И хотя новая система представляет собой изменение парадигмы программирования наряду с увеличением емкости, Центр высокопроизводительных вычислений готов к растущему процессу адаптации пользователей от графических процессоров к IA.

Подробнее читайте в кейсе.