Класс CountVectorizer
является частью модуля sklearn.feature_extraction.text
в библиотеке Scikit-learn, широко используемой библиотеке машинного обучения в Python.
CountVectorizer
используется для преобразования набора текстовых документов в матрицу количества токенов. Он делает это, анализируя частоту появления каждого слова в текстовых документах и создавая матрицу, где каждая строка представляет документ, а каждый столбец представляет слово в корпусе. Значение в каждой ячейке представляет частоту соответствующего слова в соответствующем документе.
Вот пример того, как использовать CountVectorizer
для токенизации коллекции текстовых документов и создания матрицы количества слов:
из sklearn.feature_extraction.text импортировать CountVectorizer
# Список текстовых документов
documents = ["Это первый документ", "Это второй документ", "А это третий", "Это первый документ?"]
# Создать экземпляр CountVectorizer
vectorizer = CountVectorizer()
# Маркировать документы и создать матрицу количества слов
word_counts = vectorizer.fit_transform(documents)
# Распечатать матрицу
print(word_counts.toarray())
Результатом будет матрица, в которой каждая строка представляет документ, а каждый столбец представляет слово в корпусе:
[[1 0 1 1 0 0 1]
[1 0 1 1 0 1 0]
[0 1 1 1 1 0 0]
[1 0 1 0 0 0 1]]
Столбцы представляют слова «и», «документ», «первый», «является», «один», «второй» и «тот» соответственно. Строки представляют появление каждого слова в каждом документе.