фильтр TabularDataset в azure ML

Мой набор данных огромен. Я использую записные книжки машинного обучения Azure и использую azureml.core для чтения набора дат и преобразования в azureml.data.tabular_dataset.TabularDataset. В любом случае я бы отфильтровал данные в tabularDataset без преобразования в фрейм данных pandas. Я использую приведенный ниже код для чтения данных. поскольку данные огромны, кадру данных pandas не хватает памяти. Мне не нужно загружать в программу полные данные. Требуется только подмножество. Есть ли способ отфильтровать записи перед преобразованием в фрейм данных pandas

def read_Dataset(dataset):
    ws = Workspace.from_config()
    ds = ws.datasets
    tab_dataset = ds.get(dataset)
    dataframe = tab_dataset.to_pandas_dataframe()
    return dataframe



Ответы (1)


На данный момент мы поддерживаем только простую выборку, фильтрацию по имени столбца и дате и времени (ссылка здесь). Возможность полной фильтрации (например, по значению столбца) в tabulardataset станет новой функцией в ближайшие пару месяцев. Мы обновим нашу общедоступную документацию, как только функция будет готова.

person May Hu    schedule 07.01.2021