Благодаря прогрессу в Интернете и доступности технологий были созданы невероятные платформы, такие как социальные сети, форумы и т. д., для обмена знаниями, обмен идеями не ограничен географическими ограничениями и временем. В связи с этим генерируется много контента в виде изображений, видео, текста и т. д. Количество информации настолько велико, что ее трудно усвоить за ограниченное время, в такое время область текстовой аналитики привлекла внимание людей. в области лингвистики, бизнеса и т. д. Цель поста — обобщить несколько визуальных анализов текста, которые могут помочь вам на начальном этапе интеллектуального анализа текста или помочь вам создать новую функцию для создания модели машинного обучения. Я опишу несколько онлайн- и офлайн-инструментов, которые помогут вам начать работу. Под автономными инструментами я подразумеваю использование программных пакетов на основе Python для создания визуализации и обработки текста. Онлайн-инструменты будут базовыми инструментами веб-браузера, чтобы использовать эти инструменты, вам просто нужно вставить текст или загрузить текстовый файл для визуализации результатов.

Визуальная текстовая аналитика

Исследовательский анализ текста может помочь нам понять суть текстовых данных. Я собираюсь использовать python для примера кода и для обработки текста. Для обработки текста и корпуса текстов я буду использовать пакет nltk, а для визуализации пакет matplotlib. Есть и другие пакеты, которые мы будем использовать по мере продвижения.

  1. WordCloud: один из самых простых методов визуализации, представляющий собой тип визуализации частотности слов. Размер слова на изображении больше для более часто встречающегося слова и меньше для менее частого слова. Этот тип визуализации может помочь при первоначальном формировании запроса. Есть некоторые недостатки, например, более длинное слово может занимать больше места, создавая впечатление частого слова, чем оно есть на самом деле. Это может не помочь нам сравнить два часто используемых слова об их отношениях, иногда может ввести в заблуждение, даже если использование двух слов вместе может иметь смысл. Частые слова могут не иметь смысла. Для создания облака слов я буду использовать пакет wordcloud, который вы можете установить из pip. Ниже приведен код для создания облака. Используемый набор текстовых данных представляет собой инаугурационные обращения президента США, которые являются частью пакета nltk.corpus.

  1. График лексической дисперсии: это график зависимости слова от смещения слова в текстовом корпусе. Слово представляет собой ось Y. Каждое слово имеет полосу, представляющую весь текст с точки зрения смещения, а метка на полосе указывает на появление слова с этим смещением, полоса представляет собой ось x. Позиционная информация может указывать на предмет обсуждения в тексте. Итак, если вы посмотрите на сюжет ниже, слова «Америка», «демократия» и «свобода» чаще встречаются в конце речей, а такие слова, как обязанности, а некоторые слова имеют несколько равномерное распределение в середине. Таким образом, мы можем заключить, что в начале речи основное внимание уделялось обязанностям, но затем внимание сместилось на Америку, демократию и свободу. Ниже приведен код для воспроизведения сюжета.

  1. График частотного распределения: этот график пытается передать частоту словарного запаса в тексте. График частотного распределения представляет собой зависимость слова от частоты слова. Частота слова может помочь нам понять тему корпуса. Разные жанры текста могут иметь различный набор часто используемых слов, например, если у нас есть корпус новостей, то спортивные новости могут иметь другой набор часто встречающихся слов по сравнению с новостями, связанными с политикой, nltk имеет FreqDist класс, который помогает создать частотное распределение корпуса текстов. Код ниже найдет 5 наиболее и наименее частых слов.

Читать весь пост на оригинальном сайте.



Вывод

Исследовательская текстовая аналитика может быть очень простой, как мы видели, некоторая базовая визуализация может помочь вам получить хорошее представление о текстовом корпусе, а также некоторые из метрик, обсуждавшихся выше, могут помочь вам сравнить различные текстовые корпуса в вашем наборе данных. Мы также обсудили некоторые онлайн-инструменты, которые могут помочь вам копнуть глубже, вы можете попробовать проанализировать некоторые наборы данных, ссылку на которые я разместил ниже, и использовать эти инструменты.

доля

Первоначально опубликовано на www.mien.in 2 октября 2017 г.