Часть 4. Развертывание сервера выводов NVIDIA Triton на платформе ИИ

Прежде чем мы приведем пару примеров, вот некоторая справочная информация, которая может оказаться вам полезной.

Артефакты модели в AI Platform организованы в виде иерархии модель/версия модели, которая выглядит примерно так:

model: customer_propensity
  version: v01
  version: v02
  version: v03
model: inventory_forecast
  version: v02
  version: v03

Чтобы создать версию модели, вам сначала нужно создать модель, в которой будет находиться версия модели.

gcloud ai-platform models create customer_propensity --region us-central1

Затем вы можете создать модель:

gcloud beta ai-platform versions create v02 \
--model customer_propensity \
--accelerator count=1,type=nvidia-tesla-t4 \
--config config_simple.yaml
--region us-central1

Где config_simple.yaml:

autoScaling:
  minNodes: 1
container:
  args:
  - tritonserver
  - --model-repository=$(AIP_STORAGE_URI)
  env: []
  image: $REGION-docker.pkg.dev/$PROJECT_ID/$REPO/$IMAGE:VERSION
  ports:
    containerPort: 8000
deploymentUri: $PATH_TO_MODEL_ARTIFACTS
machineType: n1-standard-4
routes:
  health: /v2/models/$MODEL_NAME
  predict: /v2/models/$MODEL_NAME/infer

Вам нужно будет указать следующие параметры:

  • VERSION_NAME: это имя этой версии модели, например v2.
  • PATH_TO_MODEL_ARTIFACTS: Платформа ИИ обратится к этому местоположению, чтобы скопировать артефакты модели в эту версию модели.
  • REGION: регион, в котором находится образ контейнера.
  • PROJECT_ID: это идентификатор проекта, в котором находится образ контейнера.
  • REPO: репозиторий, в котором находится образ контейнера.
  • IMAGE:VERSION: это образ и версия контейнера.
  • MODEL_NAME: это должно совпадать с именем модели в артефактах модели. В этом руководстве мы настраиваем одну модель, и это сообщает Triton имя модели, для которой вы хотите, чтобы Triton выполнял запросы прогнозирования.
  • REGION: регион, в котором находится образ контейнера.

Другие параметры версии модели:

  • Triton по умолчанию слушает HTTP-запросы на порту 8000. Это сообщает AI Platform, какой порт для связи с Triton.
  • В этом примере мы будем использовать n1-standard-4 и один графический процессор nvidia-tesla-t4.
  • AIP_STORAGE_URI — это переменная среды, предоставляемая AI Platform. Это место, куда копируются артефакты модели во время создания этой версии модели. Контент будет поступать из deploymentUri. Если серверу моделей требуется расположение для извлечения артефактов модели, используйте AIP_STORAGE_URI, а не deploymentUri.

Что дальше

В Google Cloud Platform есть много других руководств, охватывающих широкий круг тем. Попробуйте их здесь.