Гарвин Ли

Классификация новостей — распространенный сценарий в области интеллектуального анализа текста. В настоящее время многие производители средств массовой информации или контента часто используют ручную маркировку текста новостей, что требует больших человеческих ресурсов. В этой статье тексты новостей классифицируются с помощью интеллектуальных алгоритмов анализа текста. Это полностью реализовано машиной без какой-либо ручной маркировки.

В этой статье автоматическая классификация новостей реализована с помощью алгоритма PLDA и кластеризации весов тем. Он включает в себя такие процессы, как разбиение на слова, преобразование типов слов, фильтрация отключенных слов, анализ темы и кластеризация. Мы будем делать это с помощью Облачной платформы машинного обучения Alibaba.

Примечание. Данные в этой статье являются вымышленными и используются только в экспериментальных целях.

Введение в набор данных

Скриншот данных показан ниже.

Подробные поля выглядят следующим образом:

Процедура исследования данных

Схема эксперимента выглядит следующим образом.

Эксперимент условно делится на следующие 5 шагов:

  1. Добавьте столбец с серийным номером
  2. Сегментация слов и частотный анализ слов
  3. Фильтр отключенных слов
  4. Анализ текстовой темы
  5. Анализ и оценка результатов

1. Добавьте столбец серийного номера

Источник данных этого эксперимента основан на одном блоке новостей. Необходимо добавить столбец ID в качестве уникального идентификатора для каждого новостного блока, что удобно для вычисления следующего алгоритма.

2. Сегментация слов и частотный анализ слов

Эти два шага являются наиболее распространенными практиками в области интеллектуального анализа текста.

Компонент разделения слов сначала используется для разделения поля контента (новостного контента). После удаления отфильтрованных слов (отфильтрованные слова, как правило, знаки препинания и вспомогательные слова) анализируется частотность слов. Результаты показаны на следующем рисунке.

3. Фильтр отключенных слов

Компонент фильтра запрещенных слов используется для фильтрации входного словаря запрещенных слов, как правило, для фильтрации пунктуации и вспомогательных слов, которые меньше влияют на статью.

4. Анализ текстовой темы

Использование компонента интеллектуального анализа текста PLDA требует сначала преобразования текста в троичную форму (текст в число), как показано на следующем рисунке.

append_id — уникальный идентификатор для каждого блока новостей.

Число перед двоеточием в поле key_value указывает числовой идентификатор, в который абстрагируется слово, а за двоеточием следует частота появления соответствующего слова.

Используйте алгоритм PLDA для данных.

Алгоритм PLDA также известен как тематическая модель, которая может находить слова, представляющие тему каждой статьи. В этом эксперименте задается 50 тем. PLDA имеет 6 выходных стопок, а 5-я выходная стопка выводит вероятность каждой темы, соответствующей каждой статье, как показано на следующем рисунке.

5. Анализ и оценка результатов

Вышеуказанные шаги представляют статью как вектор от измерения темы.

Затем классификация статей может быть достигнута путем кластеризации расстояний векторов. Результаты классификации компонента кластеризации K-средних показаны на рисунке ниже.

  1. cluster_index указывает имя каждого класса.
  2. Найдите класс 0, всего 4 статьи с docid 115, 292, 248 и 166.

4 статьи 115, 292, 248 и 166 запрашиваются с помощью компонента фильтрации и сопоставления. Результаты показаны на следующем рисунке.

Результат эксперимента не идеален. На приведенном выше рисунке большинство статей отсортированы правильно, за исключением блока финансовых новостей, блока новостей технологий и двух блоков спортивных новостей, сгруппированных вместе.

Основные причины следующие:

  1. Детальной оптимизации нет.
  2. Для данных нет разработки признаков.
  3. Объем данных слишком мал.

Чтобы узнать больше об облачной платформе машинного обучения Alibaba для искусственного интеллекта (PAI), посетите сайт www.alibabacloud.com/product/machine-learning.

Ссылка: https://www.alibabacloud.com/blog/alibaba-cloud-machine-learning-platform-for-ai-news-classification-case_594401?spm=a2c41.12532010.0.0