Около 5-10% исполнителей теряются в моем фреймворке mesos.

У меня есть кластер mesos из 200 узлов, который может одновременно запускать около 2700 исполнителей. Около 5-10% моих исполнителей ПОТЕРЯНЫ в самом начале. Они идут только до извлечения tar-файла исполнителя.

WARNING: Logging before InitGoogleLogging() is written to STDERR I0617 21:35:09.947180 45885 fetcher.cpp:76] Fetching URI 'http://download_url/remote_executor.tgz' I0617 21:35:09.947273 45885 fetcher.cpp:126] Downloading 'http://download_url/remote_executor.tgz' to '/mesos_dir/remote_executor.tgz' I0617 21:35:57.551722 45885 fetcher.cpp:64] Extracted resource '/mesos_dir/remote_executor.tgz' into '/extracting_mesos_dir/'

Пожалуйста, дайте мне знать, если кто-то еще сталкивается с этой проблемой.

Я использую python для реализации планировщика и исполнителя. Код исполнителя представляет собой файл Python, который расширяет базовый класс «Исполнитель». Я реализовал метод launchTasks класса Executor, который просто делает то, что должен делать исполнитель.

Информация об исполнителе:

    executor = mesos_pb2.ExecutorInfo()
    executor.executor_id.value = "executor-%s" % (str(task_id),)
    executor.command.value = 'python -m myexecutor'

    # where to download executor from
    tar_uri = '%s/remote_executor.tgz' % (
        self.conf.remote_executor_cache_url)
    executor.command.uris.add().value = tar_uri
    executor.name = 'some_executor_name'
    executor.source = "executor_test"

person Osman Sarood    schedule 27.05.2015    source источник


Ответы (1)


Можете ли вы предоставить более подробную информацию о том, что должен делать ваш Executor (в лучшем случае ExecutorInfo Definition и сам Executor)? Какую команду вы используете для запуска исполнителя (CommandInfo)?

Например, определение исполнителя смотрите на Rendler. Он включает в себя пример исполнителя и определение ExecutorInfo. Rendler также включает примеры на Java, GO, Python, Scala и Haskell.

person js84    schedule 28.05.2015
comment
Я заметил, что почти все пакеты LOST вызваны тем, что загрузка tar-файла исполнителя занимает 40+ секунд. Есть ли тайм-аут, до которого исполнитель должен зарегистрироваться в mesos после загрузки tar-файла и его распаковки? - person Osman Sarood; 18.06.2015