Каков наилучший способ совместного использования набора данных между узлами в Apache Flink?

Я использую Apache Flink для обработки потока данных, и мне нужно поделиться индексом между всеми узлами, которые обрабатывают входные данные. Индекс часто обновляется узлами.

Я хотел бы знать, является ли с точки зрения эффективности хорошей практикой делиться набором данных через широковещательные переменные?

Будет ли широковещательная переменная обновляться на всех узлах после каждого обновления или нет?

Разумно ли Apache Flink обновляет переменные широковещательной рассылки только для последних изменений или нет?


person Ahmad.S    schedule 21.06.2016    source источник


Ответы (1)


Я думаю, что решение заключается в использовании функций с отслеживанием состояния, основанных на дескрипторах управляемого состояния Flink. Если состояние не может быть разделено, установите для вашего оператора параллелизм равным единице.

person Eron Wright    schedule 19.07.2017