Я создаю собственный набор данных для задач, связанных с НЛП.
В руководстве по настройке пользовательских данных PyTorch мы видим, что метод __getitem__()
место для преобразования, прежде чем оно вернет образец:
def __getitem__(self, idx):
if torch.is_tensor(idx):
idx = idx.tolist()
img_name = os.path.join(self.root_dir,
self.landmarks_frame.iloc[idx, 0])
image = io.imread(img_name)
### SOME DATA MANIPULATION HERE ###
sample = {'image': image, 'landmarks': landmarks}
if self.transform:
sample = self.transform(sample)
return sample
Однако код здесь:
if torch.is_tensor(idx):
idx = idx.tolist()
подразумевает, что можно получить несколько элементов одновременно, что заставляет меня задуматься:
Как это преобразование работает с несколькими элементами? Возьмем, к примеру, пользовательские преобразования из учебника. Они не выглядят так, как будто их можно применить к партии образцов за один вызов.
В связи с этим, как DataLoader извлекает пакет из нескольких выборок параллельно и применяет указанное преобразование, если преобразование может быть применено только к одному образцу?