Контрольная точка не работает в искровом потоке

Мы помещаем файл данных в путь HDFS, который отслеживается приложением потоковой передачи искры. И приложение Spark Streaming отправляет данные в тему kafka. Мы останавливаем потоковое приложение? Между ними и снова запускаем, так что оно должно запускаться с того места, где оно остановилось. Но он снова обрабатывает весь файл входных данных. Поэтому я предполагаю, что контрольные точки не используются должным образом. Мы используем Spark 1.4.1 версии. Как мы можем заставить потоковое приложение запускаться с того места, где оно не удалось / остановилось? Заранее спасибо.


person user2861483    schedule 23.12.2015    source источник


Ответы (1)


При создании контекста используйте getOfCreate (checkpoint, ..) для загрузки данных с предыдущими контрольными точками, если таковые имеются.

например: JavaStreamingContext ssc = JavaStreamingContext.getOrCreate (checkpointDir, ..)

Проверьте рабочий образец программы https://github.com/atulsm/Test_Projects/blob/master/src/spark/StreamingKafkaRecoverableDirectEvent.java

person Atul Soman    schedule 23.12.2015