Джоэл Хруска

За последние несколько лет Nvidia зарекомендовала себя как крупный лидер в области машинного обучения и обработки искусственного интеллекта. Разработчик графических процессоров погрузился в рынок высокопроизводительных вычислений более десяти лет назад, когда выпустил G80 и его API параллельной вычислительной платформы CUDA. Раннее лидерство окупилось для Nvidia; Компания занимает 87 позиций в списке суперкомпьютеров TOP500 по сравнению с 10 для Intel. Но по мере роста числа рабочих нагрузок машинного обучения и искусственного интеллекта появляются поставщики, которые предлагают Nvidia возможность потратить свои деньги, включая новый Cloud TPU от Google. Новые тесты RiseML сравнивают Nvidia и Google TPU, а кривая затрат явно в пользу Google.

Поскольку машинное обучение и искусственный интеллект являются новыми и развивающимися областями, важно, чтобы тесты проводились справедливо и чтобы результаты тестов не давали преимущества одной архитектуре по сравнению с другой просто потому, что лучшие параметры тестирования не известны. С этой целью RiseML позволил инженерам Nvidia и Google просматривать проекты результатов своих тестов и предлагать комментарии и предложения. Компания также заявляет, что ее цифры были проверены дополнительной группой внешних экспертов в этой области.

Сравнение проводится между четырьмя чипами Google TPUv2 (которые образуют один Cloud TPU) и четырьмя графическими процессорами Nvidia Volta. Оба имеют 64 ГБ общей оперативной памяти, и наборы данных обучались одинаково. RiseML протестировал модель ResNet-50 (подробные сведения о конфигурации доступны в сообщении в блоге), и команда исследовала как чистую производительность (пропускную способность), так и точность и сходимость (алгоритм сходится, когда его результат все ближе и ближе к определенному значению. ).

Предлагаемый размер пакета для TPU составляет 1024, но другие размеры пакета были протестированы по запросу читателя. Nvidia работает лучше с меньшими размерами пакетов. По точности и сходимости решение TPU несколько лучше (точность топ-1 76,4% для Cloud TPU по сравнению с 75,7% для Volta). Трудно добиться улучшения максимальной точности, и команда RiseML считает небольшую разницу между двумя решениями более важной, чем вы думаете. Но где облачный TPU от Google действительно выигрывает, по крайней мере, сейчас, так это в ценах.

RiseML пишет:

В конечном итоге важны время и стоимость, необходимые для достижения определенной точности. Если мы предположим приемлемое решение на уровне 75,7 процента (лучшая точность, достигаемая реализацией графического процессора), мы можем рассчитать стоимость достижения этой точности на основе требуемых эпох и скорости обучения в изображениях в секунду. Это исключает время для оценки модели между эпохами и время запуска обучения.

Как показано выше, текущая цена Cloud TPU позволяет обучить модель до 75,7% в ImageNet с нуля за 55 долларов менее чем за 9 часов! Обучение конвергенции на 76,4% стоит 73 доллара. В то время как V100 работают так же быстро, более высокая цена и более медленная сходимость реализации приводит к значительно более высокой стоимости решения.

Google может субсидировать цены на свои облачные процессоры, и точные характеристики производительности микросхем машинного обучения будут зависеть от реализации и навыков программиста. Это далеко не последнее слово о производительности Volta или даже Volta по сравнению с Google Cloud TPU. Но, по крайней мере, на данный момент в ResNet-50 облачный TPU от Google, похоже, предлагает почти такую ​​же производительность по существенно более низким ценам.

Первоначально опубликовано на www.extremetech.com 26 апреля 2018 г.