Доброе утро всем
Ниже моя реализация сиамской сети pytorch. Я использую размер партии 32, потери MSE и SGD с импульсом 0,9 в качестве оптимизатора.
class SiameseCNN(nn.Module):
def __init__(self):
super(SiameseCNN, self).__init__() # 1, 40, 50
self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(), # 8, 34, 44
nn.Conv2d(8, 16, 5), nn.ReLU(), # 16, 30, 40
nn.MaxPool2d(2, 2), # 16, 15, 20
nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
self.linear2 = nn.Sequential(nn.Linear(100, 2), nn.ReLU())
def forward(self, data):
res = []
for j in range(2):
x = self.convnet(data[:, j, :, :])
x = x.view(-1, 64 * 15 * 20)
res.append(self.linear1(x))
fres = abs(res[1] - res[0])
return self.linear2(fres)
Каждая партия содержит чередующиеся пары, т.е. [pos, pos], [pos, neg], [pos, pos]
и т. Д. Однако сеть не сходится, и проблема заключается в том, что fres
в сети одинаково для каждой пары (независимо от того, положительная это пара или отрицательная), и вывод self.linear2(fres)
всегда приблизительно равен [0.0531, 0.0770]
. Это контрастирует с тем, что я ожидал, а именно, что первое значение [0.0531, 0.0770]
будет приближаться к 1 для положительной пары по мере обучения сети, а второе значение будет ближе к 1 для отрицательной пары. Эти два значения также необходимо суммировать до 1.
Я протестировал точно такую же настройку и одинаковые входные изображения для двухканальной сетевой архитектуры, где вместо подачи [pos, pos]
вы бы сложили эти 2 изображения по глубине, например numpy.stack([pos, pos], -1)
. Размер nn.Conv2d(1, 8, 7)
также изменяется на nn.Conv2d(2, 8, 7)
в этой настройке. Это прекрасно работает.
Я также протестировал точно такие же настройки и входные изображения для традиционного подхода CNN, где я просто передаю в сеть отдельные положительные и отрицательные изображения в градациях серого вместо того, чтобы складывать их (как в случае с подходом с 2 каналами) или передавать их в сеть. как пары изображений (как в сиамском подходе). Это тоже отлично работает, но результаты не так хороши, как при двухканальном подходе.
РЕДАКТИРОВАТЬ (решения, которые я пробовал):
- Я пробовал несколько различных функций потерь, в том числе HingeEmbeddingLoss и CrossEntropyLoss, и все они приводили к более или менее той же проблеме. Поэтому я думаю, что можно с уверенностью сказать, что проблема не вызвана используемой функцией потерь; MSELoss.
- Различные размеры партий также, похоже, не влияют на проблему.
- Я попытался увеличить количество обучаемых параметров, как это было предложено в Модель Кераса для сиамской сети не обучается и всегда прогнозирует одну и ту же производительность. Также не работает.
- Пытался изменить архитектуру сети, как здесь реализовано: https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb. Другими словами, изменил прямой проход на следующий код. Также изменил потерю на CrossEntropy, а оптимизатор на Адама. Все равно не повезло:
def forward(self, data):
res = []
for j in range(2):
x = self.convnet(data[:, j, :, :])
x = x.view(-1, 64 * 15 * 20)
res.append(x)
fres = self.linear2(self.linear1(abs(res[1] - res[0]))))
return fres
- Я также попытался изменить всю сеть с CNN на линейную, как это реализовано здесь: https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb. По-прежнему не работает.
- Пытался использовать гораздо больше данных, как предлагается здесь: Модель Кераса для сиамской сети не обучается и всегда прогнозирует одну и ту же производительность. Не повезло...
- Пытался использовать
torch.nn.PairwiseDistance
между выходамиconvnet
. Сделано какое-то улучшение; сеть начинает сходиться в течение первых нескольких эпох, а затем каждый раз достигает одного и того же плато:
def forward(self, data):
res = []
for j in range(2):
x = self.convnet(data[:, j, :, :])
res.append(x)
pdist = nn.PairwiseDistance(p=2)
diff = pdist(res[1], res[0])
diff = diff.view(-1, 64 * 15 * 10)
fres = self.linear2(self.linear1(diff))
return fres
Еще одна вещь, на которую следует обратить внимание, это то, что в контексте моего исследования сиамская сеть обучается для каждого объекта. Таким образом, первый класс связан с изображениями, содержащими рассматриваемый объект, а второй класс связан с изображениями, содержащими другие объекты. Не знаю, могло ли это быть причиной проблемы. Однако это не проблема в контексте подходов традиционного CNN и двухканального CNN.
По запросу вот мой обучающий код:
model = SiameseCNN().cuda()
ls_fn = torch.nn.BCELoss()
optim = torch.optim.SGD(model.parameters(), lr=1e-6, momentum=0.9)
epochs = np.arange(100)
eloss = []
for epoch in epochs:
model.train()
train_loss = []
for x_batch, y_batch in dp.train_set:
x_var, y_var = Variable(x_batch.cuda()), Variable(y_batch.cuda())
y_pred = model(x_var)
loss = ls_fn(y_pred, y_var)
train_loss.append(abs(loss.item()))
optim.zero_grad()
loss.backward()
optim.step()
eloss.append(np.mean(train_loss))
print(epoch, np.mean(train_loss))
Примечание dp
в dp.train_set
- это класс с атрибутами train_set, valid_set, test_set
, где каждый набор создается следующим образом:
DataLoader(TensorDataset(torch.Tensor(x), torch.Tensor(y)), batch_size=bs)
Согласно запросу, вот пример предсказанной вероятности и истинной метки, где вы можете видеть, что модель, похоже, не обучается:
Predicted: 0.5030623078346252 Label: 1.0
Predicted: 0.5030624270439148 Label: 0.0
Predicted: 0.5030624270439148 Label: 1.0
Predicted: 0.5030625462532043 Label: 0.0
Predicted: 0.5030625462532043 Label: 1.0
Predicted: 0.5030626654624939 Label: 0.0
Predicted: 0.5030626058578491 Label: 1.0
Predicted: 0.5030627250671387 Label: 0.0
Predicted: 0.5030626654624939 Label: 1.0
Predicted: 0.5030627846717834 Label: 0.0
Predicted: 0.5030627250671387 Label: 1.0
Predicted: 0.5030627846717834 Label: 0.0
Predicted: 0.5030627250671387 Label: 1.0
Predicted: 0.5030628442764282 Label: 0.0
Predicted: 0.5030627846717834 Label: 1.0
Predicted: 0.5030628442764282 Label: 0.0
abs(res[1] - res[0])
. Я действительно столкнулся с той же проблемой в одном из моих собственных проектов, но я еще не успел ее исправить. - person bug_spray   schedule 14.05.2020ReLU
, но он ограничивает только отрицательные значения. Виноват. Спасибо! - person Emile Beukes   schedule 14.05.2020softmax
имеет плохие свойства градиента, поэтому, если вы собираетесь распространять обратное распространение через слой, используйте вместо этогоlog_softmax()
. Лучшее решение, вероятно, - вообще отказаться от слояsoftmax
во время обучения и просто использовать его для оценки. - person DerekG   schedule 14.05.2020Variable
при загрузке пакета вcuda
, поскольку этот API устарел и нет необходимости преобразовывать входные тензоры в переменные. Постройте пакет, чтобы увидеть, правильно ли установлены y - person Guillem   schedule 28.06.2020