Как импортировать один набор данных в palantir Foundry без использования tranform или tranform_df

Я хочу импортировать один набор данных глобально, чтобы иметь доступ к этому набору данных в файле. Есть ли способы импортировать один файл без использования transform или transform_df в репозитории кода Palantir Foundry.

В основном я хочу извлечь данные из набора данных и вернуть все значения в виде списка. Если я использую декораторы transform или transform_df, я не смогу получить доступ к этому входному файлу при вызове функции возврата.

или Есть ли другие способы вернуть список значений, используя один фрейм данных в качестве входных данных для функции в репозитории кода palantir.


person Gavisha BN    schedule 30.10.2020    source источник
comment
Отвечает ли это на ваш вопрос? Как создавать динамические файлы с помощью файла конфигурации в palantir литейный цех   -  person fmsf    schedule 30.10.2020


Ответы (1)


Этот вопрос является близким дубликатом этого вопроса по намерению (я проголосовал за закрытие): Как создавать динамические файлы с помощью файла конфигурации в palantir Foundry

Ответ на вопрос в заголовке:

Вы не можете использовать преобразования для импорта наборов данных в Foundry. Вместо этого вам нужно использовать подключение для передачи данных и создать поглощение.

Ответ на вопрос в теле:

Как ответил на ваш другой вопрос о том, как генерировать динамические файлы, используя файл конфигурации в palantir-foundry. Вы не можете программно создавать преобразования на основе содержимого других наборов данных. Наборы данных создаются во время CI.

Однако у вас может быть файл констант внутри вашего репозитория кода, который можно прочитать во время CI, и использовать его для создания преобразований. То есть:

myconfig.py:
dataset_pairs = [
  {
    "in": "/path/to/input/dataset,
    "out": "/path/to/output/dataset,
  },
  {
    "in": "/path/to/input/dataset2,
    "out": "/path/to/output/dataset2,
  },
  # ...
  {
    "in": "/path/to/input/datasetN,
    "out": "/path/to/output/datasetN,
  },

]

from myconfig import dataset_pairs

TRANSFORMS = []
for conf in dataset_pairs:
  @transform_df(Output(conf["out"]), my_input=Input(conf["in"]))
  def my_generated_transform(my_input)
     # ...
     return df

  TRANSFORMS.append(my_generated_transform)

Чтобы повторить итерацию, вы не можете создать config.py программно на основе содержимого набора данных, потому что когда этот код запускается, это происходит во время CI, поэтому у него нет доступа к наборам данных.

person fmsf    schedule 30.10.2020