Изучение тем «Открытия Индии» с НЛП

Анализ Неру с помощью НЛП: Часть 1 прошел довольно хорошо. Есть несколько человек, заинтересованных в НЛП. Так что это плюс. Что я узнал из части 1:

  1. Независимо от того, какие данные вы получаете, всегда лучше, если их можно будет представить в простой и ясной форме.
  2. Линейные графики и гистограммы пригодятся, когда вы меньше всего этого ожидаете. Вот быстрая ссылка на библиотеку matplotlib, которая используется для построения всех диаграмм, необходимых в этой статье.

В то время как Часть 1 оценивала структурный поток и многословность предметов, в этой части анализируются затронутые темы, глядя на частотное распределение слов в книге.

2-я часть из 3-х частей: Анализ Неру с помощью НЛП.

См. Также: Часть 1 | Часть 3.

Частотный анализ слов

Слова, наиболее часто используемые автором, часто помогают определить наиболее важные для него вещи. Это также прольет свет на самые актуальные темы в главах.

Для анализа нужно немного подправить:

  • Токенизация слов в NLTK иногда дает слова, разделенные дефисом, как два отдельных слова. Поэтому мы объединили их в одни слова, чтобы их было легче анализировать.
  • Было несколько случаев пунктуации, и их пришлось удалить. Более того, анализ не зависел от использования заглавных букв, а значит, все слова переводились в строчные.
  • Все слова были представлены в кодировке ASCII, и мы удалили наиболее распространенные стоп-слова, такие как i, this, am, an, as, would и т. Д. Из списка слов для анализа, чтобы сосредоточиться только на ключевых словах. .
stopwords.words('english')
  • Мы используем функции numpy, чтобы быстро вычислить частоту каждого слова и быстро извлечь N первых слов.

Если взять первые 40 слов из всей книги, становится очевидным, что тема книги Неру и обсуждаемые темы.

Книга написана в то время, когда стремление к независимости находилось в зените, она глубоко патриотична и проливает свет на Индию и ее богатое прошлое. Можно отметить, что всплывают ключевые темы в книге:

  1. Индия (2112 раз) и Индия (794 раза)
  2. Британский (659)
  3. Война (437)
  4. Правительство (410)
  5. Конгресс (340)
  6. Прошлое (322)
  7. Деревенский (295)
  8. Мощность (275)
  9. Социальные (275)
  10. Политические (248)

Глава мудрый анализ

Как только мы проанализируем 10 основных слов в каждой главе, мы увидим фокус, с которым была написана каждая глава, и основные темы.

  • В главах 1 и 10 мы видим, что ссылка на жизнь (63) является общей темой.

  • Глава 2 о Камале (25) и женщинах (13).

Глава 7 проливает свет на Индию (323) в свете британского правления (245).

В главе 8 освещены Индия (185) и Индийский национальный конгресс (145). Обсуждаются также политика правительства (91) и Великобритании (80).

Диаграмма дисперсии

Диаграммы дисперсии помогают показать взаимное расположение слов в книге. Когда они появляются, слово отмечается вертикальной меткой. Здесь мы показываем диаграмму разброса главных слов, которые мы определили в предыдущем разделе.

На заметку:

  • Здесь на красных полях отмечены различные главы книги (предисловие + главы с 1 по 10).
  • Стоп-слова удалены для облегчения анализа.
  • Другое означает все слова, не попадающие в верхние слова.

Наблюдения:

  • Слова «Индия», «Индия» и «страна» можно увидеть равномерно распределенными по всей книге.
  • Однако такие слова, как «британский», «конгресс», «война» и т. Д., Больше распространяются в конце глав, где обсуждаются последние фазы борьбы за свободу.

Код для построения карты дисперсии напрямую с помощью диаграмм разброса matplotlib

E внешние ресурсы

  1. Было бы полезно понять контекст, в котором была написана эта книга, и образ мышления Неру в этот период. [См. Википедию для краткого обзора]
  2. Эта книга послужила основой для Бхаратх Эк Ходж Дурдаршана. Во времена крайне правой политики она могла бы открыть глаза многим. Нет большей опасности, чем неуместный патриотизм. Индия глазами истинного борца за либеральную свободу может развеять многие мифы, которые существуют сегодня.

Подробнее: Часть 1 | Часть 3