с помощью this я успешно создал учебное задание по sagemaker с помощью API обнаружения объектов Tensorflow в докер-контейнере. Теперь я хотел бы контролировать работу по обучению с помощью sagemaker, но не могу найти ничего, объясняющего, как это делать. Я не использую записную книжку Sagemaker. Я думаю, что могу сделать это, сохранив журналы в ведре S3 и указав там локальный экземпляр тензорной платы ... но не знаю, как сообщить API обнаружения объектов тензорного потока, где сохранять журналы (есть ли аргумент командной строки для этого ?). Что-то вроде >, но сценарий generate_tensorboard_command.py
не работает, потому что в моем учебном задании нет параметра sagemaker_submit_directory
..
Дело в том, что когда я начинаю обучение, на моем s3 ничего не создается, пока работа не закончится и не загрузит все. Должен быть способ указать тензорному потоку, где сохранять журналы (s3) во время обучения, надеюсь, без изменения исходного кода API.
Изменить
Наконец-то я могу заставить его работать с принятым решением (tensorflow изначально поддерживает чтение / запись в s3), однако есть дополнительные шаги, которые нужно сделать:
- Отключить изоляцию сети в конфигурации учебного задания
- Предоставьте учетные данные образу докера для записи в корзину S3
Единственное, что Tensorflow постоянно опрашивает файловую систему (т.е. ищет обновленную модель в режиме обслуживания), и это вызывает бесполезные запросы к S3, которые вам придется заплатить (вместе с кучей ошибок в консоли). Я открыл для этого новый вопрос здесь. По крайней мере, это работает.
Изменить 2
Я был неправ, TF просто пишет журналы, а не опрашивает, так что это ожидаемое поведение, а дополнительные расходы минимальны.