Вопросы по теме 'bert-language-model'
Как BERT использует память TPU?
README в Google В репозитории BERT говорится, что даже одно предложение длиной 512 не может поместиться в 12-гигабайтный Titan X для модели BERT-Large.
Но в документе BERT говорится, что для обучения BERT-Large используются 64 чипа TPU с...
727 просмотров
schedule
12.09.2022
Почему матрицы в BERT называются «запрос», «ключ» и «значение»?
Внутри блоков преобразования BERT есть модули, называемые Query, Key и Value, или просто Q, К, В.
На основе статьи BERT и код (особенно в models.py ), мое понимание псевдокода прямого прохода модуля внимания (с использованием Q, K, V) с...
1764 просмотров
schedule
05.06.2022
Каково значение величины / нормы встраивания слов BERT?
Обычно мы сравниваем сходство между вложениями слов с косинусным сходством, но при этом учитывается только угол между векторами, а не норма. С word2vec норма вектора уменьшается по мере того, как слово используется в более разнообразных контекстах....
637 просмотров
schedule
17.06.2023
Какую модель (GPT2, BERT, XLNet и т. Д.) Вы бы использовали для задачи классификации текста? Почему?
Я пытаюсь обучить модель задаче классификации предложений. Входными данными является предложение (вектор целых чисел), а выходными данными - метка (0 или 1). Я видел несколько статей об использовании Bert и GPT2 для задач классификации текста....
6286 просмотров
schedule
16.08.2023
Как реализовать сеть с использованием Bert в качестве кодировщика абзацев в классификации длинного текста в keras?
Я выполняю задачу классификации длинного текста, в которой содержится более 10000 слов в документе, я планирую использовать Bert в качестве кодировщика абзацев, а затем пошагово подавать вложения абзаца в BiLSTM. Сеть выглядит следующим образом:...
1290 просмотров
schedule
19.03.2022
Как получить файл словаря для токенизатора Bert с TF Hub
Я пытаюсь использовать Bert из TensorFlow Hub и построить токенизатор, вот что я делаю:
>>> import tensorflow_hub as hub
>>> from bert.tokenization import FullTokenizer
>>> BERT_URL =...
1460 просмотров
schedule
05.10.2023
BERT точная настройка
Я пытаюсь создать свою модель для ответов на вопросы на основе BERT и не могу понять, в чем смысл точной настройки. Я правильно понимаю, что это как адаптация под конкретную область? И если я хочу использовать его с корпусом Википедии, мне просто...
181 просмотров
schedule
28.03.2022
BERT получает встраивание уровня предложения после точной настройки
Я наткнулся на эту страницу / а>
1) Я хотел бы получить встраивание уровня предложения (вложение, заданное токеном [CLS] ) после завершения точной настройки. Как я мог это сделать?
2) Я также заметил, что код на этой странице требует много...
817 просмотров
schedule
23.03.2022
Путаница в предварительной обработке текста для модели Роберты
Я хочу применить модель Роберты для подобия текста. Для пары предложений ввод должен быть в формате <s> A </s></s> B </s> . Я выясняю два возможных способа создания входных идентификаторов, а именно
a)
from...
625 просмотров
schedule
31.01.2023
Градиент потери DistilBERT для измерения важности токена
Я пытаюсь получить доступ к градиенту потерь в DistilBERT по отношению к каждому весу внимания в первом слое. Я мог получить доступ к вычисленному значению градиента выходной матрицы весов с помощью следующего кода, когда requires_grad=True...
349 просмотров
schedule
28.04.2022
Предварительное обучение языковой модели на небольшом пользовательском корпусе
Мне было любопытно, можно ли использовать переносное обучение при генерации текста и повторно обучать / предварительно обучать его на конкретном виде текста.
Например, имея предварительно обученную модель BERT и небольшой корпус медицинского (или...
1565 просмотров
schedule
10.11.2023
Как получить промежуточные слои предварительно обученной модели BERT в библиотеке HuggingFace Transformers?
(Я следую этому руководству pytorch о слове BERT вложения, а в учебнике автор получает доступ к промежуточным уровням модели BERT.)
Я хочу получить доступ к последним, скажем, 4 последним слоям одного входного токена модели BERT в TensorFlow2 с...
5746 просмотров
schedule
11.01.2023
Понимание трансформаторов обнимающего лица
Я новичок в концепции трансформеров, и я просматриваю несколько руководств и пишу свой собственный код, чтобы понять вопрос о наборе данных Squad 2.0. Ответы на вопросы с использованием моделей трансформеров. На сайте обнимающего лица я наткнулся на...
276 просмотров
schedule
08.07.2023
huggingface bert показывает низкую точность / результат f1 [pytorch]
Я пытаюсь BertForSequenceClassification выполнить простую задачу классификации статей.
Независимо от того, как я его тренирую (замораживаю все слои, кроме слоя классификации, все слои можно обучать, последние k слоя можно обучать), я всегда...
3081 просмотров
schedule
03.04.2024
Как запретить BERT разбивать определенные слова на части
Я использую предварительно обученную модель BERT для токенизации текста в значимые токены. Однако в тексте много конкретных слов, и я не хочу, чтобы модель BERT разбивала их на части. Есть ли какое-то решение? Например:
tokenizer =...
1423 просмотров
schedule
19.07.2023
Как получить вложение от тонкой настройки Bert?
Я оштрафовал модель 'bert-base-uncased' с использованием трансформатора и фонарика, которые дали мне pytorch_model.bin, vocab.txt и другие файлы в качестве вывода. После загрузки модели, как мне получить вложение для полного словаря, например,...
177 просмотров
schedule
19.05.2022
Применение обученной модели BERT для развертывания прогнозирования
В настоящее время я работаю над задачей классификации по нескольким меткам для текстовых данных . У меня есть фрейм данных со столбцом идентификатора, текстовым столбцом и несколькими столбцами, которые представляют собой текстовую метку,...
103 просмотров
schedule
29.12.2022
Как хранить векторные вложения Word?
0
Я использую BERT Word Embeddings для задачи классификации предложений с 3 метками. Я использую Google Colab для кодирования. Моя проблема в том, что, поскольку мне придется выполнять часть внедрения каждый раз, когда я перезапускаю ядро, есть ли...
1378 просмотров
schedule
01.03.2023
Алгоритм ранжирования сводного текста
Каковы преимущества использования алгоритма ранжирования текста для суммирования по сравнению с суммированием BERT? Несмотря на то, что оба они могут использоваться в качестве метода извлечения реферата, есть ли какие-либо особые преимущества для...
344 просмотров
schedule
12.08.2023
HuggingFace для японского токенизатора
Недавно я протестировал приведенный ниже код на основе источника: https://github.com/cl-tohoku/bert-japanese/blob/master/masked_lm_example.ipynb
import torch
from transformers.tokenization_bert_japanese import BertJapaneseTokenizer
from...
1207 просмотров
schedule
04.12.2022