Компании часто пытаются разрушить разрозненность, копируя разрозненные данные для анализа в центральные хранилища данных, такие как витрины данных, хранилища данных и озера данных. Однако это дорого и подвержено ошибкам, когда большинство управляют в среднем 400 уникальными источниками данных для бизнес-аналитики. С помощью виртуализации данных вы можете получить доступ к данным в источнике без перемещения данных, ускоряя время окупаемости за счет более быстрых и точных запросов. В этой статье описаны пошаговые инструкции по развертыванию IBM Data Virtualization в IBM Cloud Pak for Data, работающем в Red Hat OpenShift.

Предположения

  • Кластер Red Hat OpenShift имеет доступ к высокоскоростному интернет-соединению и может извлекать образы непосредственно из IBM Entitled Registry. Если еще не настроили, следуйте инструкциям, представленным здесь.
  • IBM Cloud Pak для Data Control Plane, Foundational Services установлены и работают. Если нет, следуйте инструкциям, представленным здесь.
  • IBM Cloud Pak для оператора данных устанавливается в пространстве имен «ibm-common-services», а базовые службы устанавливаются в пространстве имен «cpd-instance».
  • Оператор DV будет установлен в пространстве имен «ibm-common-services», а служба DV будет установлена ​​в пространстве имен «cpd-instance».
  • Установка в демонстрационных целях, поэтому последняя версия программного обеспечения будет автоматически установлена ​​в кластере Red Hat OpenShift.
  • Пользователь обладает знаниями и опытом управления кластером Red Hat OpenShift.

Необходимо

  • Кластер Red Hat OpenShift версии 4.6 или новее с минимум 64 vCPU и 256 ГБ RAM
  • Хост-бастион с двумя виртуальными ЦП и 4 ГБ ОЗУ с ОС Linux
  • Доступ в Интернет для хоста Bastion и кластера Red Hat OpenShift
  • Хранилище контейнеров OpenShift (OCS) подключено к кластеру Red Hat OpenShift. Эта ссылка поможет вам определить поддерживаемое хранилище. В этой демонстрации я использовал хранилище OCS.
  • Пользователь с доступом OpenShift Cluster и администратором проекта

Шаг 1. Загрузите файлы из репозитория GitHub с помощью следующей команды.

git clone https://github.com/kapilrajyaguru/Data-Virtualization.git

После загрузки файлов перейдите в каталог Watson-Knowledge-Catalog-Installation.

cd Data-Virtualization/

Шаг 2. Создание подписки оператора на услуги

  • Создайте подписку оператора Db2U, выполнив следующую команду
oc apply -f db2u-operator.yaml
  • Убедитесь, что оператор был успешно создан.

    Выполните следующую команду, чтобы убедиться, что подписка запущена:
oc get sub -n ibm-common-services ibm-db2u-operator -o jsonpath=’{.status.installedCSV} {“\n”}’

Убедитесь, что команда возвращает db2u-operator.v1.1.11.

  • Выполните следующую команду, чтобы убедиться, что версия службы кластера (CSV) готова:
oc get csv -n ibm-common-services db2u-operator.v1.1.11 -o jsonpath=’{ .status.phase } : { .status.message} {“\n”}’

Убедитесь, что команда возвращает Успешно: стратегия установки завершена без ошибок.

  • Выполните следующую команду, чтобы подтвердить, что оператор готов:
oc get deployments -n ibm-common-services -l olm.owner=”db2u-operator.v1.1.11" -o jsonpath=”{.items[0].status.availableReplicas} {‘\n’}”

Убедитесь, что команда возвращает целое число, большее или равное 1. Если команда возвращает 0, подождите, пока развертывание станет доступным.

Шаг 3. Создайте подписку оператора виртуализации данных.

oc apply -f dv-operator-sub.yaml
  • Убедитесь, что оператор был успешно создан.
    Выполните следующую команду, чтобы подтвердить активацию подписки:
oc get sub -n ibm-common-services ibm-dv-operator-catalog-subscription -o jsonpath=’{.status.installedCSV} {“\n”}’

Убедитесь, что команда возвращает ibm-dv-operator.v1.7.6.

  • Выполните следующую команду, чтобы убедиться, что версия службы кластера (CSV) готова:
oc get csv -n ibm-common-services ibm-dv-operator.v1.7.6 -o jsonpath=’{ .status.phase } : { .status.message} {“\n”}’

Убедитесь, что команда возвращает Успешно: стратегия установки завершена без ошибок.

  • Выполните следующую команду, чтобы подтвердить, что оператор готов:
oc get deployments -n ibm-common-services -l olm.owner=”ibm-dv-operator.v1.7.6" -o jsonpath=”{.items[0].status.availableReplicas} {‘\n’}”

Убедитесь, что команда возвращает целое число, большее или равное 1. Если команда возвращает 0, подождите, пока развертывание станет доступным.

Шаг 4 — Настройки контейнера CRI-O

Если вы уже установили Watson Knowledge Catalog, вы выполнили шаги 4 и 5. Таким образом, нет необходимости выполнять это снова, и вы можете сразу перейти к шагу 6.

  • Скопируйте crio.conf в каталог /tmp
cp crio.conf /tmp/
  • Войдите в Red Hat, откройте смену в командной строке. Используйте файл YAML клонированного объекта machineconfig, как указано ниже, и примените его.
    Примечание. Если вы используете Cloud Pak для данных на OpenShift Container Platform версии 4.6, версия зажигания — 3.1.0. Если вы используете Cloud Pak для данных на OpenShift Container Platform версии 4.8, измените версию зажигания на 3.2.0 в файле machineconfig. батат
oc apply -f machineconfig.yaml

Вышеупомянутое действие перезагрузит узлы вашего кластера один за другим. Отслеживайте все узлы, чтобы убедиться, что изменения применяются с помощью следующей команды:

watch oc get nodes

Вы также можете использовать следующую команду, чтобы подтвердить завершение синхронизации MachineConfig:

watch oc get mcp

Шаг 5. Настройки параметров ядра
На следующем шаге будут включены небезопасные sysctls путем настройки kubelet, чтобы позволить Db2U выполнять небезопасные вызовы sysctls для db2 для управления требуемыми параметрами памяти.
Обновите все узлы для использования пользовательского KubletConfig:

oc apply -f kubeletconfig.yaml

Обновите метку в пуле machineconfigpool:

oc label machineconfigpool worker db2u-kubelet=sysctl 

Подождите, пока кластер перезапустится, а затем выполните следующую команду, чтобы убедиться, что пул машинных настроек обновлен:

oc get machineconfigpool

Затем подождите, пока все рабочие узлы будут обновлены и готовы.

Шаг 6. Создайте пользовательский ресурс DvService для установки виртуализации данных.

Важно: путем создания пользовательского ресурса DvService с параметром spec.license.accept: true; вы принимаете условия лицензии на виртуализацию данных. Ссылки на соответствующие лицензии можно найти в IBM Cloud Pak for Data License Information.
Создайте пользовательский ресурс в следующем формате.

oc apply -f dv-service.yaml

При создании пользовательского ресурса оператор виртуализации данных устанавливает виртуализацию данных.

  • Получите статус виртуализации данных (dv-service):
    выполните следующую команду:
oc get dvservice dv-service

Результат аналогичен следующему примеру, где поле READY указывает, установлен ли DvService.

NAME        READY
dv-service  True
  • Чтобы проверить, завершила ли служба DvService установку модулей службы виртуализации данных, выполните следующую команду:
oc get DvService dv-service -o jsonpath=”{.status.reconcileStatus}”

Виртуализация данных устанавливается, когда команда возвращает значение «Выполнено». Теперь вы должны подготовить экземпляр Data Virtualization для использования Data Virtualization.

Шаг 7. Подготовьте службу виртуализации данных:

  • В меню навигации выберите Службы › Экземпляры.
  • В списке экземпляров найдите службу виртуализации данных, щелкните меню действий и выберите Подготовить экземпляр.
  • Чтобы настроить службу, укажите ресурсы, которые вы хотите выделить рабочим узлам виртуализации данных, на шаге Узлы.
  • Укажите количество рабочих узлов виртуализации данных, которые нужно выделить службе.

Рекомендуется: одного рабочего узла достаточно для многих рабочих нагрузок.

  • Укажите количество ядер, выделяемых для каждого узла.
    Вы ограничены общим количеством доступных ядер на вычислительных узлах OpenShift®.
  • Укажите объем памяти в ГБ для выделения на узел.
    Вы ограничены общим объемом памяти на вычислительных узлах OpenShift.
  • Вы можете увеличивать и уменьшать масштаб службы виртуализации данных в любое время после ее подготовки. Дополнительные сведения см. в разделе Масштабирование виртуализации данных.
  • На шаге Хранилище укажите классы хранения и размеры постоянных томов, которые вы хотите использовать для сервисных узлов и кэширующего хранилища. Дополнительные сведения см. в разделе Требования к хранилищу.
  • Выберите класс хранилища в разделе Хранилище узла и укажите размер, который будет выделен вашим узлам. Размер по умолчанию, указанный в разделе «Хранилище узла», составляет 50 ГБ.
  • Термин рабочий модуль в Data Virtualization относится к модулю c-db2u-dv-db2u-x, который запускает один рабочий компонент Data Virtualization, где x начинается с 1. Вы можете выделить несколько рабочих компонентов, которые фактически являются несколькими c-db2u-dv. -db2u-x к экземпляру службы виртуализации данных.
  • Выберите класс хранилища в разделе Хранилище кэширования и укажите объем хранилища, выделяемый для ваших кэшей данных.
    Примечание. Часть пространства хранилища кэша используется для обновления активных кэшей с периодическим расписанием обновления. Это расписание обновления влияет на объем памяти, доступный для создания новых записей кэша.
  • Нажмите "Далее.
  • Убедитесь, что сводка верна, и нажмите «Настроить».
    Подождите, пока служба будет подготовлена. Это может занять некоторое время из-за количества компонентов, которые необходимо запустить.
  • Необязательно: если вы хотите использовать Cloud Pak для данных, ожидая завершения процесса подготовки виртуализации данных, нажмите «Главная».

Я надеюсь, что это краткое пошаговое руководство поможет вам быстро развернуть IBM Data Virtualization в IBM cloud pak для данных, работающих в кластере Red Hat OpenShift.

Другие полезные ресурсы