Гарвин Ли
Классификация новостей — распространенный сценарий в области интеллектуального анализа текста. В настоящее время многие производители средств массовой информации или контента часто используют ручную маркировку текста новостей, что требует больших человеческих ресурсов. В этой статье тексты новостей классифицируются с помощью интеллектуальных алгоритмов анализа текста. Это полностью реализовано машиной без какой-либо ручной маркировки.
В этой статье автоматическая классификация новостей реализована с помощью алгоритма PLDA и кластеризации весов тем. Он включает в себя такие процессы, как разбиение на слова, преобразование типов слов, фильтрация отключенных слов, анализ темы и кластеризация. Мы будем делать это с помощью Облачной платформы машинного обучения Alibaba.
Примечание. Данные в этой статье являются вымышленными и используются только в экспериментальных целях.
Введение в набор данных
Скриншот данных показан ниже.
Подробные поля выглядят следующим образом:
Процедура исследования данных
Схема эксперимента выглядит следующим образом.
Эксперимент условно делится на следующие 5 шагов:
- Добавьте столбец с серийным номером
- Сегментация слов и частотный анализ слов
- Фильтр отключенных слов
- Анализ текстовой темы
- Анализ и оценка результатов
1. Добавьте столбец серийного номера
Источник данных этого эксперимента основан на одном блоке новостей. Необходимо добавить столбец ID в качестве уникального идентификатора для каждого новостного блока, что удобно для вычисления следующего алгоритма.
2. Сегментация слов и частотный анализ слов
Эти два шага являются наиболее распространенными практиками в области интеллектуального анализа текста.
Компонент разделения слов сначала используется для разделения поля контента (новостного контента). После удаления отфильтрованных слов (отфильтрованные слова, как правило, знаки препинания и вспомогательные слова) анализируется частотность слов. Результаты показаны на следующем рисунке.
3. Фильтр отключенных слов
Компонент фильтра запрещенных слов используется для фильтрации входного словаря запрещенных слов, как правило, для фильтрации пунктуации и вспомогательных слов, которые меньше влияют на статью.
4. Анализ текстовой темы
Использование компонента интеллектуального анализа текста PLDA требует сначала преобразования текста в троичную форму (текст в число), как показано на следующем рисунке.
append_id — уникальный идентификатор для каждого блока новостей.
Число перед двоеточием в поле key_value указывает числовой идентификатор, в который абстрагируется слово, а за двоеточием следует частота появления соответствующего слова.
Используйте алгоритм PLDA для данных.
Алгоритм PLDA также известен как тематическая модель, которая может находить слова, представляющие тему каждой статьи. В этом эксперименте задается 50 тем. PLDA имеет 6 выходных стопок, а 5-я выходная стопка выводит вероятность каждой темы, соответствующей каждой статье, как показано на следующем рисунке.
5. Анализ и оценка результатов
Вышеуказанные шаги представляют статью как вектор от измерения темы.
Затем классификация статей может быть достигнута путем кластеризации расстояний векторов. Результаты классификации компонента кластеризации K-средних показаны на рисунке ниже.
- cluster_index указывает имя каждого класса.
- Найдите класс 0, всего 4 статьи с docid 115, 292, 248 и 166.
4 статьи 115, 292, 248 и 166 запрашиваются с помощью компонента фильтрации и сопоставления. Результаты показаны на следующем рисунке.
Результат эксперимента не идеален. На приведенном выше рисунке большинство статей отсортированы правильно, за исключением блока финансовых новостей, блока новостей технологий и двух блоков спортивных новостей, сгруппированных вместе.
Основные причины следующие:
- Детальной оптимизации нет.
- Для данных нет разработки признаков.
- Объем данных слишком мал.
Чтобы узнать больше об облачной платформе машинного обучения Alibaba для искусственного интеллекта (PAI), посетите сайт www.alibabacloud.com/product/machine-learning.