ПРИМЕР ИЗ ПРАКТИКИ

Тензар и Инженерная школа Джейкобса UCSD ERL
15 июля 2018 г.

От ограничений к пониманию.
Использование возможностей кроссплатформенного графического процессора для глубокого обучения и совместной работы.

Возможность

В то время, когда исследовательские группы сталкиваются с растущими объемами данных и вычислительными потребностями, Инженерная школа Экзистенциальной робототехники (ERL) UCSD Jacobs School of Engineering хотела убедиться, что ее недавно начатые исследовательские усилия по разработке алгоритмов для беспилотных летательных аппаратов (БПЛА) может полагаться на методы глубокого обучения.

С появлением многих многообещающих подходов к глубокому обучению ERL захотела разработать модели для распределенного интеллекта и совместного принятия решений в разнородных командах роботов, которые могли бы полагаться на компьютерное зрение, обнаружение объектов и семантическую сегментацию с использованием нейронных сетей. В случае ERL это означало производительность в реальном времени, ускорение глубокого обучения с помощью графического процессора и согласованную вычислительную среду, которую мог использовать каждый член команды. Основная идея заключалась в том, чтобы позволить ERL обучать модели роботов машинного обучения без необходимости покупать еще одну рабочую станцию ​​с графическим процессором или без необходимости настраивать среду облачных вычислений с поддержкой графического процессора.

Чтобы предоставить ERL-команде возможности ускоренных вычислений на графическом процессоре по запросу и единую рабочую среду с поддержкой больших объемов данных, подход должен был быть облачным, легкодоступным и интегрированным с контейнерными средами для обеспечения воспроизводимости в рамках всей команды. В предыдущих попытках работа группы инженеров ERL замедлялась из-за технических проблем с установкой драйверов графического процессора на разные аппаратные архитектуры на разных компьютерах, что приводило к значительной трате ресурсов. Кроме того, проблема реализации контейнерных вычислительных сред Docker с поддержкой графического процессора на настольных рабочих станциях создала дополнительные трудности при устранении неполадок.

«Благодаря контейнерным возможностям графического процессора RunBox я больше не беспокоился об установке драйверов графического процессора локально. Я мог беспрепятственно обучать модели в облаке и на нашей локальной рабочей станции благодаря гибридным функциям RunBox».

Мо Шань,
кандидат наук в ERL

Решение

С учетом требований ERL внедрила инструмент облачных вычислений RunBox от Tenzar, чтобы легко развертывать рабочие нагрузки на основе графического процессора в облачной инфраструктуре и позволить исследовательской группе быстро экспериментировать и обучать модели автономной робототехники из любого места.

После адаптации команда ERL пригласила своих участников в рабочее пространство для совместной работы RunBox, чтобы каждый участник мог получить доступ к одним и тем же данным, коду, вычислительным средам и панели мониторинга. Опираясь на встроенную поддержку контейнеров RunBox и интеграцию с Docker Hub, команда ERL импортировала готовый образ Docker с поддержкой графического процессора Nvidia CUDA и фреймворком машинного обучения Tensorflow всего за несколько кликов. Полагаясь на эту интеграцию, ERL избежала всех неприятностей, связанных с несовместимостью драйверов графического процессора, с которыми ранее сталкивалась команда, и смогла получить настраиваемую среду контейнера графического процессора, готовую к использованию за считанные минуты.

С помощью команды и контейнера Docker, совместимого с графическим процессором, команда ERL смогла легко развернуть одну или несколько контейнерных рабочих нагрузок в облаке, включая данные обучения, с панели пользовательского интерфейса и инструмента командной строки. Простое развертывание высокопроизводительных рабочих нагрузок в RunBox, ставшее возможным благодаря интеллектуальной пропускной способности данных, освободило команду ERL от написания сценариев собственных подходов к облачному развертыванию, а также включило поддержку больших данных и более быструю передачу данных в узлы облачных вычислений.

Кроме того, поскольку обучение моделей глубокого обучения длилось много часов или дней, ERL воспользовалась веб-панелью RunBox для удаленного наблюдения за ходом обучения с любого устройства. Затем недавно представленные функции RunBox позволили ERL не только удаленно отслеживать давно работающие модели, но и управлять ими через аутентифицированный и безопасный веб-интерфейс RunBox.

В конечном итоге, оптимизировав вычислительные этапы выполнения интенсивных рабочих нагрузок в командных средах, ERL привлекли ускоренные вычисления Tenzar RunBox, возможности «Run-as-a-Service» и его способность обеспечивать совместные вычисления с помощью удобного пользовательского интерфейса. Беспрепятственное развертывание контейнерных рабочих нагрузок также позволило ERL объединить локальные вычислительные возможности RunBox и существующую рабочую станцию ​​ERL с графическим процессором для локального выполнения экспериментальных задач, а затем развернуть их в облачной среде из того же пользовательского интерфейса в RunBox.

«Tenzar RunBox сыграл важную роль в обучении и тестировании крупномасштабных моделей глубокого обучения с подкреплением в нашей лаборатории. RunBox способствует воспроизводимым исследованиям с помощью контейнеров Docker и так же прост в использовании, как и ваш локальный компьютер».

Николай Атанасов,
доцент кафедры электротехники и вычислительной техники

Посетите www.tenzar.com, чтобы узнать больше.