Реализация самовнимания

Я пытаюсь реализовать себя в Pytorch. Мне нужно вычислить следующие выражения.

Функция подобия S (2-мерная), P (2-мерная), C '

S [i] [j] = W1 * inp [i] + W2 * inp [j] + W3 * x1 [i] * inp [j]

P [i] [j] = e ^ (S [i] [j]) / Сумма для всех j (e ^ (S [i]))

в основном, P - это функция softmax

C '[i] = Sum (для всех j) P [i] [j] * x1 [j]

Я пробовал следующий код, используя для циклов

        for i in range(self.dim):
            for j in range(self.dim):
                S[i][j] = self.W1 * x1[i] + self.W2 * x1[j] + self.W3 * x1[i] * x1[j]

        for i in range(self.dim):
            for j in range(self.dim):
                P[i][j] = torch.exp(S[i][j]) / torch.sum( torch.exp(S[i]))

        # attend

        for i in range(self.dim):
            out[i] = 0
            for j in range(self.dim):
                out[i] += P[i][j] * x1[j]

Есть ли более быстрый способ реализовать это в Pytorch?


person Sayan Ghosh    schedule 09.06.2019    source источник


Ответы (1)


Вот пример Self Attention, который я реализовал в Dual Внимание к изображениям HSI

class PAM_Module(Module):
""" Position attention module  https://github.com/junfu1115/DANet/blob/master/encoding/nn/attention.py"""
#Ref from SAGAN
def __init__(self, in_dim):
    super(PAM_Module, self).__init__()
    self.chanel_in = in_dim

    self.query_conv = Conv2d(in_channels=in_dim, out_channels=in_dim//8, kernel_size=1)
    self.key_conv = Conv2d(in_channels=in_dim, out_channels=in_dim//8, kernel_size=1)
    self.value_conv = Conv2d(in_channels=in_dim, out_channels=in_dim, kernel_size=1)

    self.gamma = Parameter(torch.zeros(1))

    self.softmax = Softmax(dim=-1)
def forward(self, x):
    """
        inputs :
            x : input feature maps( B X C X H X W)
        returns :
            out : attention value + input feature
            attention: B X (HxW) X (HxW)
    """
    m_batchsize, C, height, width = x.size()
    proj_query = self.query_conv(x).view(m_batchsize, -1, width*height).permute(0, 2, 1)
    proj_key = self.key_conv(x).view(m_batchsize, -1, width*height)
    energy = torch.bmm(proj_query, proj_key)
    attention = self.softmax(energy)
    proj_value = self.value_conv(x).view(m_batchsize, -1, width*height)

    out = torch.bmm(proj_value, attention.permute(0, 2, 1))
    out = out.view(m_batchsize, C, height, width)

    out = self.gamma*out + x
    #out = F.avg_pool2d(out, out.size()[2:4])

    return out
person Sayantan Das    schedule 05.01.2020
comment
Дополнительную информацию о тензорах запросов, значений и ключей можно найти в этом блоге на Self Attention: todatascience.com/ иллюстрированный-самовнимание-2d627e33b20a - person Sayantan Das; 05.01.2020