Классификация документов — это деятельность по классификации автоматических документальных ресурсов, как правило, из корпуса.
Эта классификация может принимать бесконечное количество форм. Эти элементы могут включать классификацию по жанрам, темам или мнениям.
В этом опыте мы реализуем два метода (Наивный Байес, Knn)
классификации документов, запрограммированных на Perl.

k ближайших соседей

Цель нашей программы состоит в том, чтобы классифицировать 50 текстовых документов 5 тем
, различающихся по своей тематике (ИТ, химия, электротехника, механика, биология) с помощью метода k-nn, наше решение состоит в том, чтобы создать пять словарей для каждой теме, и мы вычисляем расстояние каждого текстового файла и пяти словарей, и мы выбираем минимальное расстояние.

1. Калькулятор расстояний

2.Сравнение расстояния

3. Окончательный результат

Наивный байесовский метод

Цель нашей программы состоит в том, чтобы классифицировать 50 текстовых документов 5 тем
, различающихся по темам (ИТ, химия, электротехника, механика, биология) методом Наивного Байеса, наше решение состоит в создании десяти словарей для каждой если выбрать словарь, который содержит слова, существующие в домене среди выбранных доменов, и другой, который содержит слова, которые не существуют, то мы вычисляем вероятность каждого текстового файла со всеми словарями, чтобы увидеть, принадлежит ли он к домену словаря или нет.

1.Калькулятор вероятности

2.сравнение файлов

3. Результат классификации

Сравнение

Алгоритмы классификации связаны, но всегда есть разница
в результате классификации каждого алгоритма, по нашему опыту мы
работали с методами К-нна и наивного байеса.

Я загрузил полный код на GitHub: https://github.com/yacinzr/Text-classification-

Это мой первый блог, если есть ошибки или что-то поправьте меня, пожалуйста

Также я надеюсь, что этот блог был вам полезен. Спасибо всем за чтение!