У меня есть установка Cassandra, которая содержит таблицу с не более чем 110 тыс. записей.
У меня довольно много проблем с запросом данных с использованием PDI 5.3 (последняя версия). Я постоянно теряю память на стороне Кассандры.
Учитывая, что сервер, на котором я установил Cassandra, не самый лучший, 4 ГБ ОЗУ и всего 2 ядра, я все равно ожидаю, что эта простая задача будет выполнена без проблем.
В кассандре /conf/cassandra-env.sh
я настроил:
MAX_HEAP_SIZE="4G"
HEAP_NEWSIZE="200M"
и теперь максимальное количество строк, которые я могу запросить, составляет 80 тыс. В документации предлагается установить MAX_HEAP_SIZE на 1/4 оперативной памяти машины. Но для меня это означало 1G и всего около 20 тысяч строк для запроса.
Я могу сказать, сколько строк я могу запросить, ограничив выбор ключевым словом limit
внутри шага Cassandra input
в PDI.
Есть ли какие-либо другие параметры, которые я могу настроить для повышения производительности? Это сервер разработки, на производстве я буду ожидать запросов с более чем 1 млн строк.
Сервер, на котором установлена Cassandra: Red Hat Enterprise Linux Server версии 6.6 (Сантьяго)
Версия Cassandra: apache-cassandra-2.1.2
Изменить: версии обновлены.