Инкрементальная загрузка данных в таблицу с сегментами в улье?

Я все еще изучаю улей. Я ссылался на несколько книг для понимания концепции ведер в улье. Я узнал, что если мы обеспечим группировку, будет создано точно такое же количество файлов, как и количество корзин.

В моем случае я буду постепенно загружать данные в таблицу с сегментами пять раз в день. Например: если у меня есть таблица с 16 сегментами, то при каждой загрузке она будет создавать 16 файлов на основе хэшей/выборок. Таким образом, всего за 5 прогонов будет создано 80 файлов.

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?

person hjamali52    schedule 24.09.2013    source источник


Ответы (1)


Вы создаете другую таблицу для каждой дополнительной загрузки?

какой дистрибутив Hadoop вы используете?

Я использую ту же стратегию, и каждая дополнительная загрузка генерирует (и переопределяет) то же количество сегментов, которое я определил.

Когда у нас есть проблемы с разрешениями, дублируются файлы, потому что таблицы куста были созданы пользователем куста, а заполнение было выполнено другим пользователем (hdfs).

Посмотрите в своем каталоге /user/hive/warehouse владельца/права доступа к каталогу таблицы, а затем посмотрите в подкаталогах для того же (владелец/разрешения)

person chech0x    schedule 25.09.2013
comment
Нет, я использую одну и ту же таблицу для каждой загрузки. Мой план продолжать добавлять данные. Я пытаюсь понять, даст ли это мне преимущества ведра, когда у меня будет несколько файлов для каждого ведра. - person hjamali52; 26.09.2013
comment
В этом случае мы используем Insert Overwrite с результатом объединения инкрементных данных и старых инкрементных данных. На самом деле часть старых инкрементных данных, та часть, которой нет в новых инкрементных данных (отфильтровано левым соединением) - person chech0x; 26.09.2013
comment
Таким образом (вставьте переопределение объединения) у вас всегда будет одинаковое количество файлов корзины. - person chech0x; 26.09.2013