Вопросы по теме 'attention-model'

Как изменить модель Tensorflow Sequence2Sequence для реализации двунаправленного LSTM, а не однонаправленного?
Обратитесь к этому сообщению, чтобы узнать предысторию проблемы: Реализует ли метод TensorFlow embedding_attention_seq2seq двунаправленный кодировщик RNN по умолчанию? Я работаю над той же моделью и хочу заменить однонаправленный слой LSTM...
652 просмотров

Код вывода Tensorflow Tensorflow OCR
Я пытаюсь запустить распознавание внимания в моделях тензорного потока https://github.com/tensorflow/models/tree/master/attention_ocr . Я могу найти сценарий для обучения и оценки набора данных FSNS, но у них нет кода для выполнения вывода на одном...
1829 просмотров
schedule 19.12.2022

Ошибка выдачи уровня внимания TypeError: слой с перестановкой не поддерживает маскирование в Keras
Я слежу за этим сообщением , чтобы реализовать слой внимания поверх моей LSTM модели. Код для attention layer : INPUT_DIM = 2 TIME_STEPS = 20 SINGLE_ATTENTION_VECTOR = False APPLY_ATTENTION_BEFORE_LSTM = False def...
1176 просмотров

Как выполнить максимальное объединение строк или столбцов в keras
Я пытаюсь выполнить максимальное объединение строк и столбцов на уровне внимания, как описано в приведенной ниже ссылке: http://www.dfki.de/~neumann/ML4QAseminar2016/presentations/Attentive-Pooling-Network.pdf (слайд-15) Я использую набор...
1276 просмотров

Как повторно использовать слой LSTM и переменные в области переменных (механизм внимания)
У меня есть проблема в моем коде, когда я хотел бы поделиться весами в моем lstm_decoder (поэтому, по сути, просто используйте один LSTM). Я знаю, что в Интернете есть несколько ресурсов по этому вопросу, но я до сих пор не могу понять, почему...
902 просмотров

Как манипулировать состоянием кодировщика в многоуровневом двунаправленном режиме с помощью механизма внимания
Я реализую модель Seq2Seq с многоуровневым двунаправленным механизмом rnn и внимания, следуя этому руководству https://github.com/tensorflow/nmt Я запутался в том, как правильно манипулировать encoder_state после двунаправленного уровня. Ссылаясь...
365 просмотров

Как я могу предварительно вычислить маску для каждого входа и настроить веса в соответствии с этой маской?
Я хочу предоставить маску того же размера, что и входное изображение, и настроить веса, полученные из изображения, в соответствии с этой маской (аналогично вниманию, но предварительно вычисляемому для каждого входного изображения). Как я могу сделать...
1527 просмотров

Keras повторяют элементы, выбрасывая аргументы 'index' аргумента ValueError List в операцию 'SparseConcat' с длиной 0 меньше минимальной длины 2
Я пытаюсь реализовать код для неконтролируемого извлечения аспектов из кода, доступного здесь . Ссылка на статью При реализации класса внимания в ml_layers.py я получаю ошибку при вызове функции в строке y = K.repeat_elements(y, self.steps,...
444 просмотров

Слой внимания поверх LSTM Autoencoder получает ошибку несовместимости
Я развертываю Bidirectional LSTM Autoencoder и добавляю attention layer поверх него. Перед добавлением слоя внимания он работает нормально. Я получил идею из этого post для добавления уровня внимания. После добавления внимания жалуется на...
866 просмотров

Некоторые параметры не сохраняются при сохранении модели в pytorch
Я построил модель кодировщика-декодера с вниманием к генерации морфинга. Я могу обучать модель и прогнозировать по тестовым данным, но я ошибаюсь в прогнозировании после загрузки сохраненной модели. Я не получаю никаких ошибок во время сохранения или...
1272 просмотров

Реализация самовнимания
Я пытаюсь реализовать себя в Pytorch. Мне нужно вычислить следующие выражения. Функция подобия S (2-мерная), P (2-мерная), C ' S [i] [j] = W1 * inp [i] + W2 * inp [j] + W3 * x1 [i] * inp [j] P [i] [j] = e ^ (S [i] [j]) / Сумма для всех j (e...
323 просмотров
schedule 21.01.2023

Как построить модель внимания с помощью кераса?
Я пытаюсь понять модель внимания, а также построить ее самостоятельно. После многих поисков я наткнулся на этот веб-сайт , на котором присутствовали Модель закодирована в керасе и тоже выглядит просто. Но когда я попытался построить ту же модель...
10832 просмотров

Как построить модель seq2seq для ASR, используя векторы mfcc и соответствующие векторы встраивания слов транскриптов в качестве входных и выходных данных?
Я пытаюсь создать модель голоса в текст без использования существующих библиотек распознавания речи. Я использую набор данных общего голоса от Mozilla. Я выполнил предварительную обработку данных, в ходе которой извлек функции mfcc из входных...
175 просмотров

Как добавить слой внимания (вместе со слоем Bi-LSTM) в последовательную модель keras?
Я пытаюсь найти простой способ добавить слой внимания в последовательную модель Keras. Однако я столкнулся с множеством проблем при достижении этого. Я новичок в глубоком обучении, поэтому выбрал Керас в качестве своего начала. Моя задача -...
2086 просмотров
schedule 27.10.2022

Как понять замаскированное внимание нескольких голов в трансформаторе
Я сейчас изучаю код преобразователя, но не могу понять замаскированную многоголовку декодера. В документе говорилось, что это сделано для того, чтобы вы не увидели генерирующее слово, но я не могу понять, если слова после генерирования слова не были...
4021 просмотров

Как использовать загруженную модель внимания LSTM для прогнозирования ввода?
Я полный новичок в Deep Learning & Keras. Я хочу построить иерархическую сеть внимания, которая помогает классифицировать комментарии по нескольким категориям, а именно. токсичный, сильно токсичный и т.д. Я взял код из открытого репозитория и...
72 просмотров

Добавление конкатенированного слоя в TensorFlow 2.0 (с использованием Attention)
При создании модели, использующей TensorFlow 2.0 Attention, я следовал примеру, приведенному в документации TF. https://www.tensorflow.org/api_docs/python/tf/keras/layers/Attention Последняя строка в примере - input_layer =...
900 просмотров

Есть ли способ преобразовать тензор pytorch в тензор тензорного потока
https://github.com/taoshen58/BiBloSA/blob/ec67cbdc411278dd29e8888e9fd6451695efc26c/context_fusion/self_attn.py#L29 Мне нужно использовать mulit_dimensional_attention из приведенной выше ссылки, которая реализована в TensorFlow, но я использую...
4944 просмотров
schedule 28.02.2022

Невозможно импортировать AttentionLayer в Keras (TF1.13)
Я пытаюсь импортировать уровень внимания для моей модели декодера кодировщика, но это дает ошибку. from keras.layers import AttentionLayer or from keras.layers import Attention следующая ошибка cannot import name 'AttentionLayer'...
1884 просмотров
schedule 01.12.2022

Градиент потери DistilBERT для измерения важности токена
Я пытаюсь получить доступ к градиенту потерь в DistilBERT по отношению к каждому весу внимания в первом слое. Я мог получить доступ к вычисленному значению градиента выходной матрицы весов с помощью следующего кода, когда requires_grad=True...
349 просмотров