На самом деле я пытаюсь реализовать решение с помощью Hadoop, используя Hive на CDH 5.0 с Yarn. Итак, моя архитектура: 1 Namenode 3 DataNode Я запрашиваю ~ 123 миллиона строк с 21 столбцом.
Моя нода виртуализирована с 2vCPU @2.27 и 8 GO RAM
Итак, я попробовал какой-то запрос и получил некоторый результат, а после этого я попробовал те же запросы в базовом MySQL с тем же набором данных, чтобы сравнить результаты.
И на самом деле MySQL намного быстрее, чем Hive. Вот я и пытаюсь понять почему. Я знаю, что у меня плохие результаты из-за моих хостов. Мой главный вопрос: правильно ли подобран мой кластер?
Нужно ли мне добавлять тот же DataNode для этого объема данных (который, на мой взгляд, не очень велик)?
И если кто-то попробует запрос с примерно такой же архитектурой, поделитесь со мной своими результатами.
Спасибо !