Я начинаю изучать Python и библиотеку Scikit-learn. В настоящее время мне нужно работать над проектом НЛП, который в первую очередь должен представлять большой корпус с помощью One-Hot Encoding. Я прочитал документацию Scikit-learn о предварительной обработке. OneHotEncoder, однако, похоже, это не понимание моего термина.
в основном идея аналогична приведенной ниже:
- 1000000 Воскресенье; 0100000 понедельник; 0010000 вторник; ... 0000001 суббота;
если в корпусе всего 7 разных слов, то мне нужен только 7-значный вектор для представления каждого отдельного слова. а затем завершенное предложение может быть представлено конъюнкцией всех векторов, которая является матрицей предложений. Однако я пробовал на Python, похоже, не работает ...
Как я могу это решить? в моем корпусе очень много разных слов.
Кстати, также кажется, что если векторы в основном заполнены нулями, мы можем использовать Scipy.Sparse, чтобы сделать хранилище маленьким, например, CSR.
Следовательно, весь мой вопрос будет следующим:
как предложения в корпусе могут быть представлены OneHotEncoder и сохранены в SparseMatrix?
Спасибо вам, ребята.