Сиамская сеть Pytorch не сходится

Доброе утро всем

Ниже моя реализация сиамской сети pytorch. Я использую размер партии 32, потери MSE и SGD с импульсом 0,9 в качестве оптимизатора.

class SiameseCNN(nn.Module):
    def __init__(self):
        super(SiameseCNN, self).__init__()                                      # 1, 40, 50
        self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(),             # 8, 34, 44
                                    nn.Conv2d(8, 16, 5), nn.ReLU(),             # 16, 30, 40
                                    nn.MaxPool2d(2, 2),                         # 16, 15, 20
                                    nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
                                    nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
        self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
        self.linear2 = nn.Sequential(nn.Linear(100, 2), nn.ReLU())
        
    def forward(self, data):
        res = []
        for j in range(2):
            x = self.convnet(data[:, j, :, :])
            x = x.view(-1, 64 * 15 * 20)
            res.append(self.linear1(x))
        fres = abs(res[1] - res[0])
        return self.linear2(fres)

Каждая партия содержит чередующиеся пары, т.е. [pos, pos], [pos, neg], [pos, pos] и т. Д. Однако сеть не сходится, и проблема заключается в том, что fres в сети одинаково для каждой пары (независимо от того, положительная это пара или отрицательная), и вывод self.linear2(fres) всегда приблизительно равен [0.0531, 0.0770]. Это контрастирует с тем, что я ожидал, а именно, что первое значение [0.0531, 0.0770] будет приближаться к 1 для положительной пары по мере обучения сети, а второе значение будет ближе к 1 для отрицательной пары. Эти два значения также необходимо суммировать до 1.

Я протестировал точно такую же настройку и одинаковые входные изображения для двухканальной сетевой архитектуры, где вместо подачи [pos, pos] вы бы сложили эти 2 изображения по глубине, например numpy.stack([pos, pos], -1). Размер nn.Conv2d(1, 8, 7) также изменяется на nn.Conv2d(2, 8, 7) в этой настройке. Это прекрасно работает.

Я также протестировал точно такие же настройки и входные изображения для традиционного подхода CNN, где я просто передаю в сеть отдельные положительные и отрицательные изображения в градациях серого вместо того, чтобы складывать их (как в случае с подходом с 2 каналами) или передавать их в сеть. как пары изображений (как в сиамском подходе). Это тоже отлично работает, но результаты не так хороши, как при двухканальном подходе.

РЕДАКТИРОВАТЬ (решения, которые я пробовал):

Я пробовал несколько различных функций потерь, в том числе HingeEmbeddingLoss и CrossEntropyLoss, и все они приводили к более или менее той же проблеме. Поэтому я думаю, что можно с уверенностью сказать, что проблема не вызвана используемой функцией потерь; MSELoss.
Различные размеры партий также, похоже, не влияют на проблему.
Я попытался увеличить количество обучаемых параметров, как это было предложено в Модель Кераса для сиамской сети не обучается и всегда прогнозирует одну и ту же производительность. Также не работает.
Пытался изменить архитектуру сети, как здесь реализовано: https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb. Другими словами, изменил прямой проход на следующий код. Также изменил потерю на CrossEntropy, а оптимизатор на Адама. Все равно не повезло:

def forward(self, data):
    res = []
    for j in range(2):
        x = self.convnet(data[:, j, :, :])
        x = x.view(-1, 64 * 15 * 20)
        res.append(x)
    fres = self.linear2(self.linear1(abs(res[1] - res[0]))))
    return fres

Я также попытался изменить всю сеть с CNN на линейную, как это реализовано здесь: https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb. По-прежнему не работает.
Пытался использовать гораздо больше данных, как предлагается здесь: Модель Кераса для сиамской сети не обучается и всегда прогнозирует одну и ту же производительность. Не повезло...
Пытался использовать torch.nn.PairwiseDistance между выходами convnet. Сделано какое-то улучшение; сеть начинает сходиться в течение первых нескольких эпох, а затем каждый раз достигает одного и того же плато:

def forward(self, data):
    res = []
    for j in range(2):
        x = self.convnet(data[:, j, :, :])
        res.append(x)
    pdist = nn.PairwiseDistance(p=2)
    diff = pdist(res[1], res[0])
    diff = diff.view(-1, 64 * 15 * 10)
    fres = self.linear2(self.linear1(diff))
    return fres

Еще одна вещь, на которую следует обратить внимание, это то, что в контексте моего исследования сиамская сеть обучается для каждого объекта. Таким образом, первый класс связан с изображениями, содержащими рассматриваемый объект, а второй класс связан с изображениями, содержащими другие объекты. Не знаю, могло ли это быть причиной проблемы. Однако это не проблема в контексте подходов традиционного CNN и двухканального CNN.

По запросу вот мой обучающий код:

model = SiameseCNN().cuda()
ls_fn = torch.nn.BCELoss()
optim = torch.optim.SGD(model.parameters(),  lr=1e-6, momentum=0.9)
epochs = np.arange(100)
eloss = []
for epoch in epochs:
    model.train()
    train_loss = []
    for x_batch, y_batch in dp.train_set:
        x_var, y_var = Variable(x_batch.cuda()), Variable(y_batch.cuda())
        y_pred = model(x_var)
        loss = ls_fn(y_pred, y_var)
        train_loss.append(abs(loss.item()))
        optim.zero_grad()
        loss.backward()
        optim.step()
    eloss.append(np.mean(train_loss))
    print(epoch, np.mean(train_loss))

Примечание dp в dp.train_set - это класс с атрибутами train_set, valid_set, test_set, где каждый набор создается следующим образом:

DataLoader(TensorDataset(torch.Tensor(x), torch.Tensor(y)), batch_size=bs)

Согласно запросу, вот пример предсказанной вероятности и истинной метки, где вы можете видеть, что модель, похоже, не обучается:

Predicted:  0.5030623078346252 Label:  1.0
Predicted:  0.5030624270439148 Label:  0.0
Predicted:  0.5030624270439148 Label:  1.0
Predicted:  0.5030625462532043 Label:  0.0
Predicted:  0.5030625462532043 Label:  1.0
Predicted:  0.5030626654624939 Label:  0.0
Predicted:  0.5030626058578491 Label:  1.0
Predicted:  0.5030627250671387 Label:  0.0
Predicted:  0.5030626654624939 Label:  1.0
Predicted:  0.5030627846717834 Label:  0.0
Predicted:  0.5030627250671387 Label:  1.0
Predicted:  0.5030627846717834 Label:  0.0
Predicted:  0.5030627250671387 Label:  1.0
Predicted:  0.5030628442764282 Label:  0.0
Predicted:  0.5030627846717834 Label:  1.0
Predicted:  0.5030628442764282 Label:  0.0

Emile Beukes 14.05.2020 источник

comment

Использование косинусного сходства или коэффициента корреляции для сравнения тел сети может дать более стабильные результаты, чем abs(res[1] - res[0]). Я действительно столкнулся с той же проблемой в одном из моих собственных проектов, но я еще не успел ее исправить. - bug_spray 14.05.2020

comment

Спасибо @bug_spray. Пробовал, но по-прежнему вызывает ту же проблему. Хотя это была хорошая идея. - Emile Beukes 14.05.2020

comment

Я не думаю, что вы можете ожидать, что два выхода суммируются в один, если: а) вы не используете функцию потерь, чтобы поощрять это, или б) вы используете слой softmax в конце. - DerekG 14.05.2020

comment

@DerekG Да, я считаю, что вы правы. У меня создалось впечатление, что за это отвечает ReLU, но он ограничивает только отрицательные значения. Виноват. Спасибо! - Emile Beukes 14.05.2020

comment

Да, relu просто принимает максимальное значение и 0. Важно отметить, что softmax имеет плохие свойства градиента, поэтому, если вы собираетесь распространять обратное распространение через слой, используйте вместо этого log_softmax(). Лучшее решение, вероятно, - вообще отказаться от слоя softmax во время обучения и просто использовать его для оценки. - DerekG 14.05.2020

comment

@DerekG, спасибо за полезный совет! Я нигде не использую softmax, только ReLU. Насколько я понимаю, ReLU - одна из предпочтительных функций активации, когда дело доходит до сохранения градиентов. - Emile Beukes 15.05.2020

comment

Цикл обучения выглядит правильно, я рекомендую вам не использовать конструктор Variable при загрузке пакета в cuda, поскольку этот API устарел и нет необходимости преобразовывать входные тензоры в переменные. Постройте пакет, чтобы увидеть, правильно ли установлены y - Guillem 28.06.2020

comment

См. Вывод прогнозируемого и ярлыка выше. - Emile Beukes 28.06.2020

Ответы (2)

arrow_upward
1
arrow_downward

Я считаю, что ваш подход правильный, и у вас все хорошо. Что мне кажется немного странным, так это последний слой с активацией RELU. Обычно с сиамскими сетями вы хотите вывести с высокой вероятностью, когда два входных изображения принадлежат к одному классу, и с низкой вероятностью в противном случае. Таким образом, вы можете реализовать это с одним выходом нейрона и функцией активации сигмовидной кишки.

Поэтому я бы переопределил вашу Сеть следующим образом:

class SiameseCNN(nn.Module):
    def __init__(self):
        super(SiameseCNN, self).__init__()                                      # 1, 40, 50
        self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(),             # 8, 34, 44
                                    nn.Conv2d(8, 16, 5), nn.ReLU(),             # 16, 30, 40
                                    nn.MaxPool2d(2, 2),                         # 16, 15, 20
                                    nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
                                    nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
        self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
        self.linear2 = nn.Sequential(nn.Linear(100, 1), nn.Sigmoid())
        
    def forward(self, data):
        for j in range(2):
            x = self.convnet(data[:, j, :, :])
            x = x.view(-1, 64 * 15 * 20)
            res.append(self.linear1(x))
        fres = res[0].sub(res[1]).pow(2)
        return self.linear2(fres)

Затем, чтобы быть последовательным в обучении, вы должны использовать бинарную кроссентропию:

criterion_fn = torch.nn.BCELoss()

И не забудьте установить метки в 1, если оба входных изображения принадлежат одному классу.

Кроме того, я рекомендую вам использовать небольшое выпадение, примерно 30% вероятности выпадения нейрона после слоя linear1.

Guillem 27.06.2020

comment

Привет, Гиллем, большое спасибо, что нашли время ответить. Я попробовал ваш подход, но, к сожалению, он все еще не работает ???? Каждую эпоху я получаю одни и те же потери - 0.69...... Добавил отсев, как вы предложили. Пытался использовать попарное расстояние вместо вашего res[0].sub(res[1]).pow(2). Увеличена скорость обучения. Установите метки правильно и использовал torch.nn.BCELoss(). Пробовал batch_size = 1 вместо 32. Ничего не работает ... ???? - Emile Beukes; 28.06.2020

arrow_upward
0
arrow_downward

Задача решена. Оказывается, сеть будет предсказывать один и тот же результат каждый раз, если вы каждый раз будете давать ей одни и те же изображения ???? Небольшая ошибка индексации с моей стороны во время разделения данных. Спасибо всем за помощь и поддержку. Вот пример конвергенции, как сейчас:

0 0.20198837077617646
1 0.17636818194389342
2 0.15786472541093827
3 0.1412761415243149
4 0.126698794901371
5 0.11397973036766053
6 0.10332610329985618
7 0.09474560652673245
8 0.08779258838295936
9 0.08199785630404949
10 0.07704121413826942
11 0.07276330365240574
12 0.06907484836131335
13 0.06584368328005076
14 0.06295975042134523
15 0.06039590438082814
16 0.058096024941653016

Emile Beukes 02.07.2020

Сиамская сеть Pytorch не сходится

Ответы (2)

Вопросы по теме