Я следую руководству https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/, чтобы выполнить распознавание именованных сущностей с помощью BERT.
Во время тонкой настройки перед тем, как скармливать жетоны модели, автор делает:
input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
maxlen=MAX_LEN, dtype="long", value=0.0,
truncating="post", padding="post")
Согласно моим тестам, это не добавляет специальных токенов к идентификаторам. Так я что-то упускаю или мне не всегда нужно включать [CLS] (101) [SEP] (102)?