Мы используем Informatica для загрузки данных в базу данных greenplum через загрузчик GP. В одном отображении у нас есть параллельные потоки для вставки и обновления данных в одну и ту же цель Greenplum. Вставка занимает много времени, и, наконец, пришлось прервать рабочий процесс.
gploader создает два файла yaml, один для вставки, а второй для обновления. update будет ожидать завершения процесса вставки. Но процесс вставки занимает много времени даже для 100 записей и никогда не заканчивается, мы должны окончательно убить процесс.
Пример файла YAML:
%YAML 1.1
---
VERSION: 1.0.0.1
DATABASE: abcdgp_dev
USER: abcs
PASSWORD: srvb&34
HOST: 3.565.785.345
PORT: 5432
GPLOAD:
INPUT:
- SOURCE:
FILE:
- ../infa_shared/Temp/jaroswind_salesrep_mas_1_pipe
- COLUMNS:
- "salesrep_key":
- "salesrep_id":
- "salesrep_name":
- FORMAT: CSV
- DELIMITER: "\x24"
- ESCAPE: '/'
- NULL_AS: '/N'
- QUOTE: '^'
- ENCODING: utf8
- ERROR_LIMIT: 500
- ERROR_TABLE: jaroswind_err.err_SALESREP_MAS
OUTPUT:
- TABLE: jaroswind.salesrep_mas
- MODE: INSERT
PRELOAD:
- REUSE_TABLES: True
пожалуйста, предложите решение.