Я недавно скачал предварительно обученную модель fasttext для английского языка. Получилось два файла:
- wiki.en.vec
- wiki.en.bin
Я не уверен, в чем разница между двумя файлами?
Я недавно скачал предварительно обученную модель fasttext для английского языка. Получилось два файла:
Я не уверен, в чем разница между двумя файлами?
Файлы .vec
содержат только агрегированные векторы слов в виде простого текста. Файлы .bin
дополнительно содержат параметры модели и, что особенно важно, векторы для всех n-граммов.
Поэтому, если вы хотите закодировать слова, с которыми вы не тренировались, используя эти n-граммы (известная «информация о подсловах» FastText), вам нужно найти API, который может обрабатывать файлы FastText .bin
(большинство из них поддерживает только .vec
файлов, однако ...).
.bin
? Я пробовал open(FILENAME, "rb")
, но потом не знаю, как на самом деле получить доступ к матрице весов после этого
- person information_interchange; 06.05.2020
Как сказано в документации,
model.vec
- текстовый файл, содержащий векторы слов, по одному в каждой строке.model.bin
- это двоичный файл, содержащий параметры модели вместе со словарем и всеми гиперпараметрами.
Другими словами, формат файла .vec
совпадает с форматом файла .txt
, и вы можете использовать его в других приложениях (например, для обмена данными между вашей моделью FastText и вашей моделью Word2Vec, поскольку файл .vec
похож на файл .txt
, созданный Word2Vec) . И файл .bin
можно использовать, если вы хотите продолжить обучение векторов или перезапустить оптимизацию.