Спасибо за интерес к моему вопросу. Прежде чем я начну, я хотел бы сообщить вам, что я новичок в Hadoop и HBase. Пока что я нахожу Hadoop очень интересным и хотел бы внести больший вклад в будущем.
Меня в первую очередь интересует повышение производительности HBase. Для этого я модифицировал Writer
методы в /io/hfile/Hfile.java
HBase таким образом, чтобы он выполнял высокоскоростную буферизованную сборку данных, а затем напрямую записывал их в Hadoop, чтобы позже их можно было загрузить с помощью HBase.
Теперь я пытаюсь придумать способ сжатия пар ключ-значение, чтобы можно было сэкономить пропускную способность. Я провел много исследований, чтобы выяснить, как; а потом понял, что в HBase есть встроенные библиотеки сжатия.
Сейчас я просматриваю SequenceFile (1); setCompressMapOutput (2) (устарело); и сжатие классов (3). Я также нашел руководство по Apache MapReduce.
Может ли кто-нибудь объяснить, что такое «SequenceFile» и как я могу реализовать эти библиотеки и алгоритмы сжатия? Эти разные классы и документы так сбивают меня с толку.
Я был бы искренне признателен за вашу помощь.
--
Гиперссылки:
(1): hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
(2): hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3): www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html