В настоящее время я решаю задачу масштабируемого обслуживания моих моделей тензорного потока. Насколько мне известно, рекомендуемым решением является использование стандартного TensorFlow ModelServer. Общие требования довольно хорошо обрабатываются этим, но я хочу большего. Я хочу уменьшить передаваемый объем данных, проанализировав такой параметр, как «предел», чтобы определить верхние n логитов + вероятности возврата.
В ходе своего исследования я нашел следующие решения:
1) Создайте более продвинутый SignatureDef во время построения модели.
2) Настройте базовый проект tensorflow/serving с указанной функциональностью.
3) Обслуживайте модель с помощью стандартного сервера моделей Tensorflow и создайте службу постобработки для реструктуризации соответственно. отфильтровать результат заранее заданным способом.
Может ли кто-нибудь более опытный, чем я, подробно рассказать о моем вопросе? - фрагменты кода или ссылки были бы потрясающими.
Заранее спасибо.