Кластер HDP с RAID?

Каков ваш опыт работы с RAID1 в кластере HDP?

У меня в голове два варианта:

  1. Настройте RAID 1 для основных узлов и узлов зоопарка и вообще не используйте RAID на подчиненных узлах, таких как брокеры kafka, региональные серверы hbase и менеджеры узлов пряжи.

Даже если я потеряю один подчиненный узел, у меня будут две другие реплики. На мой взгляд, RAID только замедлит работу моего кластера.

  1. Несмотря ни на что, настройте все, используя RAID 1.

Что вы думаете об этом? Каков ваш опыт работы с HDP и RAID? Что вы думаете об использовании RAID 0 для подчиненных узлов?


person crashoverbike    schedule 20.09.2016    source источник


Ответы (1)


Я бы рекомендовал вообще не использовать RAID на хостах Hadoop. Есть одно предостережение: если вы используете такие сервисы, как Oozie и хранилище метаданных Hive, которые за кулисами используют реляционную БД, рейд вполне может иметь смысл на хосте БД.

На главном узле, если у вас есть Namenode, zookeeper и т. д., как правило, избыточность встроена в службу. Для узлов имен все данные хранятся на обоих узлах имен. Для Zookeeper, если вы потеряете один узел, то у двух других узлов будет вся информация.

Zookeeper любит быстрые диски — в идеале выделите для zookeeper полный диск. Если у вас есть namenode HA, предоставьте каталогу редактирования namenode и каждому журнальному узлу выделенный диск.

Для подчиненных узлов узел данных будет записывать на все диски, в любом случае эффективно разделяя данные. Каждая «запись» не превышает размер блока HDFS, поэтому, если вы записываете большой файл, вы можете получить 128 МБ на диске 1, затем следующие 128 МБ на диске 2 и т. д.

person Stephen ODonnell    schedule 20.09.2016