искра сохраняется MEMOERY_AND_DISK против Тахиона

Я хочу убедиться, что понимаю тахион. Является ли использование Tachyon с hdfs под ним более или менее эквивалентным сохранению RDD с использованием MEMORY_AND_DISK. В обоих случаях, когда объем данных превышает объем памяти, они переносятся на жесткий диск.

Я понимаю разницу в производительности из-за сборки мусора jvm. Я спрашиваю только о поведении при переливе.


person bhomass    schedule 27.06.2015    source источник


Ответы (1)


Рекомендуемый способ сохранения RDD на диске — использовать локальную файловую систему, а не dfs (проверьте параметр SPARK_LOCAL_DIRS). это связано с тем, что spark не отслеживает перемещения данных, которые делает dfs. кроме того, локальная fs намного быстрее, чем dfs, поскольку нет репликации и т. д.

в кластере тахион может использовать память других узлов для переполнения перед записью данных в (d)fs. поэтому лучше, если стоимость сети + памяти ‹ стоимости диска.

Я не думаю, что в одном узле тахион принесет какое-либо улучшение производительности, кроме устранения накладных расходов gc.

person semihsahin    schedule 20.02.2017