Я хотел бы собрать совокупные показатели использования из кластера Cloudera 5.4.4 Hadoop. Некоторые из показателей, на мой взгляд, следующие:
- Средняя загрузка ЦП кластера в день/в неделю
- Первые n самых продолжительных заданий/запросов в Hadoop
- Первые n пользователей, которые чаще всего используют кластер (по использованию, по количеству отправленных заданий)
- Использование диска кластера по сравнению с емкостью диска
- Рост использования диска кластера с течением времени
Существуют ли какие-либо API/ресурсы/инструменты и т. д., которые я мог бы использовать для начала? Я не думаю, что я полностью уверен в том, с чего начать. Любая отправная точка будет принята с благодарностью. Кроме того, поделитесь своим опытом работы с метриками использования кластера, если он у вас есть.
Заранее спасибо!