Понимание трансформаторов обнимающего лица

Я новичок в концепции трансформеров, и я просматриваю несколько руководств и пишу свой собственный код, чтобы понять вопрос о наборе данных Squad 2.0. Ответы на вопросы с использованием моделей трансформеров. На сайте обнимающего лица я наткнулся на 2 разные ссылки

Я хочу знать разницу между этими двумя веб-сайтами. Есть ли у одной ссылки только предварительно обученная модель, а у другой - предварительно обученная и настроенная модель?

Теперь, если я хочу использовать, скажем, модель Альберта для ответов на вопросы и тренироваться с моим набором данных обучения Squad 2.0 на этом и оценивать модель, по какой из ссылок мне следует продолжить?




Ответы (1)


Я бы сформулировал это так: Вторая ссылка в основном описывает «общепринятые модели», то есть модели, которые служат основой для реализованных классов Huggingface, таких как BERT, RoBERTa и т. Д., А также некоторые связанные модели, которые имеют высокую степень принятия. или прошли рецензирование.

В этом списке есть корзина намного длиннее, тогда как список в первой ссылке только недавно был введен непосредственно на веб-сайт Huggingface, где сообщество может загружать произвольные контрольные точки, которые просто считаются «совместимыми» с библиотекой. Часто это дополнительные модели, обученные практиками или другими добровольцами, которые настраиваются под конкретную задачу. Обратите внимание, что все модели из /pretrained_models.html также включены в /models интерфейс.

Если у вас очень узкий вариант использования, вы можете также проверить, существует ли уже какая-то модель, которая была точно настроена для вашей конкретной задачи. В худшем случае вы все равно получите базовую модель.

person dennlinger    schedule 14.05.2020