Хранилище данных — хранение исторических данных в таблице фактов

Я новичок в DataWarehousing. Мы создали витрину данных со звездообразной схемой для загрузки квартальных данных. Мы загружаем текущие данные по мере их утверждения бизнесом за этот квартал.

Теперь у нас есть требование вернуться и загрузить исторические данные (за 3 года, что составляет около 40 ГБ). Размеры для загрузки этих данных будут такими же, как и для ежеквартальной загрузки. Однако можем ли мы загрузить эти исторические данные в ту же таблицу фактов или нам нужно создать дублирующую таблицу фактов, чтобы загрузить только исторические данные? Это стандарт DW? Я пытаюсь найти способы сделать это в соответствии со стандартами.

Текущая таблица фактов разделена по дате на load_cycle_date, которая указывает квартал, для которого были загружены данные.

Большое спасибо!


person user3357452    schedule 26.02.2014    source источник
comment
Хранилища данных содержат исторические, агрегированные данные, что вас беспокоит?   -  person rano    schedule 26.02.2014
comment
Привет, Рано. Меня беспокоит возможность загрузки исторических данных (консолидированных за 3 года) в ту же таблицу фактов, которую мы использовали для загрузки квартальных данных.   -  person user3357452    schedule 26.02.2014
comment
Предположим, вы вводите только ежеквартальные данные за следующие три года, что изменится?   -  person rano    schedule 27.02.2014
comment
Спасибо за ваш ответ! Вставка новых данных на ежеквартальной основе будет в порядке. Но мне было интересно, как вставить исторические данные (3 года вместе и без разбивки по кварталам). Могу ли я использовать ту же таблицу фактов, которая сейчас используется для загрузки квартальных данных, или мне следует создать новую таблицу фактов, чтобы загружать только исторические данные и сопоставлять их с существующими измерениями?   -  person user3357452    schedule 27.02.2014
comment
вы должны указать, насколько обобщены исторические данные и какова схема с вашей таблицей фактов сейчас   -  person rano    schedule 27.02.2014


Ответы (1)


Я не понимаю, почему получение исторических данных и использование старых load_cycle_dates не подходят для вашей существующей таблицы. Это предполагает, что вы можете преобразовать их в этот формат. Это основано на том, насколько структуры данных изменились за эти годы.

Есть и другие области, на которые вам нужно обратить внимание:

  1. Есть ли у вас адекватные исторические значения для всех ваших измерений? Пример: Рейтинг клиентов. Могут быть клиенты, получившие оценку «Плохо», но раньше такого не было. Для каждого изменения должны быть записи. Альтернативой может быть извлечение данных из резервных копий.
  2. Процесс утверждения. Часто многие расхождения в данных не обнаруживаются до тех пор, пока он не будет запущен. В результате этого могли быть внесены изменения в приложение, которое вносит эти исправления. Вы можете обнаружить, что некоторые отчеты, созданные на основе данных этого «предыдущего хранилища данных», будут неточными.

Нет никаких причин, по которым вы не сможете сделать это в течение одного квартала и протестировать его. Это единственный способ узнать наверняка. Текущее хранилище данных, с которым я работаю, прошло тот же процесс добавления данных до того, как хранилище было запущено. Преобразования очень распространены.

person JeffO    schedule 28.02.2014