Вопросы по теме 'attention-model'
Как изменить модель Tensorflow Sequence2Sequence для реализации двунаправленного LSTM, а не однонаправленного?
Обратитесь к этому сообщению, чтобы узнать предысторию проблемы: Реализует ли метод TensorFlow embedding_attention_seq2seq двунаправленный кодировщик RNN по умолчанию?
Я работаю над той же моделью и хочу заменить однонаправленный слой LSTM...
652 просмотров
schedule
24.01.2023
Код вывода Tensorflow Tensorflow OCR
Я пытаюсь запустить распознавание внимания в моделях тензорного потока https://github.com/tensorflow/models/tree/master/attention_ocr . Я могу найти сценарий для обучения и оценки набора данных FSNS, но у них нет кода для выполнения вывода на одном...
1829 просмотров
schedule
19.12.2022
Ошибка выдачи уровня внимания TypeError: слой с перестановкой не поддерживает маскирование в Keras
Я слежу за этим сообщением , чтобы реализовать слой внимания поверх моей LSTM модели.
Код для attention layer :
INPUT_DIM = 2
TIME_STEPS = 20
SINGLE_ATTENTION_VECTOR = False
APPLY_ATTENTION_BEFORE_LSTM = False
def...
1176 просмотров
schedule
13.03.2023
Как выполнить максимальное объединение строк или столбцов в keras
Я пытаюсь выполнить максимальное объединение строк и столбцов на уровне внимания, как описано в приведенной ниже ссылке: http://www.dfki.de/~neumann/ML4QAseminar2016/presentations/Attentive-Pooling-Network.pdf (слайд-15)
Я использую набор...
1276 просмотров
schedule
08.03.2023
Как повторно использовать слой LSTM и переменные в области переменных (механизм внимания)
У меня есть проблема в моем коде, когда я хотел бы поделиться весами в моем lstm_decoder (поэтому, по сути, просто используйте один LSTM). Я знаю, что в Интернете есть несколько ресурсов по этому вопросу, но я до сих пор не могу понять, почему...
902 просмотров
schedule
03.12.2022
Как манипулировать состоянием кодировщика в многоуровневом двунаправленном режиме с помощью механизма внимания
Я реализую модель Seq2Seq с многоуровневым двунаправленным механизмом rnn и внимания, следуя этому руководству https://github.com/tensorflow/nmt Я запутался в том, как правильно манипулировать encoder_state после двунаправленного уровня.
Ссылаясь...
365 просмотров
schedule
16.06.2023
Как я могу предварительно вычислить маску для каждого входа и настроить веса в соответствии с этой маской?
Я хочу предоставить маску того же размера, что и входное изображение, и настроить веса, полученные из изображения, в соответствии с этой маской (аналогично вниманию, но предварительно вычисляемому для каждого входного изображения). Как я могу сделать...
1527 просмотров
schedule
13.06.2022
Keras повторяют элементы, выбрасывая аргументы 'index' аргумента ValueError List в операцию 'SparseConcat' с длиной 0 меньше минимальной длины 2
Я пытаюсь реализовать код для неконтролируемого извлечения аспектов из кода, доступного здесь . Ссылка на статью При реализации класса внимания в ml_layers.py я получаю ошибку при вызове функции в строке
y = K.repeat_elements(y, self.steps,...
444 просмотров
schedule
23.05.2024
Слой внимания поверх LSTM Autoencoder получает ошибку несовместимости
Я развертываю Bidirectional LSTM Autoencoder и добавляю attention layer поверх него.
Перед добавлением слоя внимания он работает нормально. Я получил идею из этого post для добавления уровня внимания. После добавления внимания жалуется на...
866 просмотров
schedule
21.06.2022
Некоторые параметры не сохраняются при сохранении модели в pytorch
Я построил модель кодировщика-декодера с вниманием к генерации морфинга. Я могу обучать модель и прогнозировать по тестовым данным, но я ошибаюсь в прогнозировании после загрузки сохраненной модели. Я не получаю никаких ошибок во время сохранения или...
1272 просмотров
schedule
19.02.2022
Реализация самовнимания
Я пытаюсь реализовать себя в Pytorch. Мне нужно вычислить следующие выражения.
Функция подобия S (2-мерная), P (2-мерная), C '
S [i] [j] = W1 * inp [i] + W2 * inp [j] + W3 * x1 [i] * inp [j]
P [i] [j] = e ^ (S [i] [j]) / Сумма для всех j (e...
323 просмотров
schedule
21.01.2023
Как построить модель внимания с помощью кераса?
Я пытаюсь понять модель внимания, а также построить ее самостоятельно. После многих поисков я наткнулся на этот веб-сайт , на котором присутствовали Модель закодирована в керасе и тоже выглядит просто. Но когда я попытался построить ту же модель...
10832 просмотров
schedule
10.08.2022
Как построить модель seq2seq для ASR, используя векторы mfcc и соответствующие векторы встраивания слов транскриптов в качестве входных и выходных данных?
Я пытаюсь создать модель голоса в текст без использования существующих библиотек распознавания речи. Я использую набор данных общего голоса от Mozilla. Я выполнил предварительную обработку данных, в ходе которой извлек функции mfcc из входных...
175 просмотров
schedule
10.11.2022
Как добавить слой внимания (вместе со слоем Bi-LSTM) в последовательную модель keras?
Я пытаюсь найти простой способ добавить слой внимания в последовательную модель Keras. Однако я столкнулся с множеством проблем при достижении этого.
Я новичок в глубоком обучении, поэтому выбрал Керас в качестве своего начала. Моя задача -...
2086 просмотров
schedule
27.10.2022
Как понять замаскированное внимание нескольких голов в трансформаторе
Я сейчас изучаю код преобразователя, но не могу понять замаскированную многоголовку декодера. В документе говорилось, что это сделано для того, чтобы вы не увидели генерирующее слово, но я не могу понять, если слова после генерирования слова не были...
4021 просмотров
schedule
07.07.2023
Как использовать загруженную модель внимания LSTM для прогнозирования ввода?
Я полный новичок в Deep Learning & Keras. Я хочу построить иерархическую сеть внимания, которая помогает классифицировать комментарии по нескольким категориям, а именно. токсичный, сильно токсичный и т.д. Я взял код из открытого репозитория и...
72 просмотров
schedule
22.07.2022
Добавление конкатенированного слоя в TensorFlow 2.0 (с использованием Attention)
При создании модели, использующей TensorFlow 2.0 Attention, я следовал примеру, приведенному в документации TF. https://www.tensorflow.org/api_docs/python/tf/keras/layers/Attention
Последняя строка в примере -
input_layer =...
900 просмотров
schedule
24.06.2022
Есть ли способ преобразовать тензор pytorch в тензор тензорного потока
https://github.com/taoshen58/BiBloSA/blob/ec67cbdc411278dd29e8888e9fd6451695efc26c/context_fusion/self_attn.py#L29
Мне нужно использовать mulit_dimensional_attention из приведенной выше ссылки, которая реализована в TensorFlow, но я использую...
4944 просмотров
schedule
28.02.2022
Невозможно импортировать AttentionLayer в Keras (TF1.13)
Я пытаюсь импортировать уровень внимания для моей модели декодера кодировщика, но это дает ошибку.
from keras.layers import AttentionLayer
or
from keras.layers import Attention
следующая ошибка cannot import name 'AttentionLayer'...
1884 просмотров
schedule
01.12.2022
Градиент потери DistilBERT для измерения важности токена
Я пытаюсь получить доступ к градиенту потерь в DistilBERT по отношению к каждому весу внимания в первом слое. Я мог получить доступ к вычисленному значению градиента выходной матрицы весов с помощью следующего кода, когда requires_grad=True...
349 просмотров
schedule
28.04.2022