Преобразование текстовых документов в матрицу

Класс CountVectorizer является частью модуля sklearn.feature_extraction.text в библиотеке Scikit-learn, широко используемой библиотеке машинного обучения в Python.

CountVectorizer используется для преобразования набора текстовых документов в матрицу количества токенов. Он делает это, анализируя частоту появления каждого слова в текстовых документах и создавая матрицу, где каждая строка представляет документ, а каждый столбец представляет слово в корпусе. Значение в каждой ячейке представляет частоту соответствующего слова в соответствующем документе.

Вот пример того, как использовать CountVectorizer для токенизации коллекции текстовых документов и создания матрицы количества слов:

из sklearn.feature_extraction.text импортировать CountVectorizer

# Список текстовых документов
documents = ["Это первый документ", "Это второй документ", "А это третий", "Это первый документ?"]

# Создать экземпляр CountVectorizer
vectorizer = CountVectorizer()

# Маркировать документы и создать матрицу количества слов
word_counts = vectorizer.fit_transform(documents)

# Распечатать матрицу
print(word_counts.toarray())

Результатом будет матрица, в которой каждая строка представляет документ, а каждый столбец представляет слово в корпусе:

[[1 0 1 1 0 0 1]
[1 0 1 1 0 1 0]
[0 1 1 1 1 0 0]
[1 0 1 0 0 0 1]]

Столбцы представляют слова «и», «документ», «первый», «является», «один», «второй» и «тот» соответственно. Строки представляют появление каждого слова в каждом документе.

Преобразование текстовых документов в матрицу

Вопросы по теме