Я пытаюсь сопоставить некоторые концепции между Spark Structured Streaming и Hazelcast Jet, а также разбираться в других предметах.
Q1 - В Spark каждый раздел Kafka станет разделом внутри Spark, затем они будут обрабатываться отдельными задачами параллельно. Я думаю, что где-то читал, что Hazelcast Jet объединит все сообщения от kafka независимо от разделов group.id и topic, это правильно?
Q2 - Как нам увеличить количество «потребителей» в программе Jet, чтобы увеличить пропускную способность, потребляющую от кафки? В Spark, я думаю, нам нужно только увеличить количество тематических разделов, чтобы назначить новую задачу Spark для нового раздела.
Q3 - Если Q1 выше верно, возможно ли избежать этого слияния и распределения разделов kafka для параллельной обработки? После того, как сообщения будут уже сгруппированы и упорядочены в разделе kafka, объединение всех сообщений подразумевает дополнительную обработку для повторного разделения и повторной сортировки сообщений.
Q4 - Как определяется номер каждой вершины? Я имею в виду, что в примере подсчета слов у нас есть токенизатор и аккумулятор, как Jet будет определять / делить количество процессоров для создания экземпляров токенизатора и аккумулятора?