Глубокое обучение и обработка естественного языка получили широкое распространение в потребительских и медицинских технологиях, но реже использовались для анализа в области гуманитарных наук. В этом сообщении блога мы рассмотрим одно применение глубокого обучения для анализа текстов, подробно описывающих историю израильско-палестинского конфликта, возможно, «самого трудноразрешимого конфликта нашего времени».

Мы обнаружили, что, учитывая текст, написанный во время конфликта, мы можем использовать глубокое обучение, чтобы определить, был ли он написан израильтянином или палестинцем с точностью 85–92%. Документ, связанный с этим сообщением в блоге, находится [здесь], а данные и код можно найти [здесь].

Наборы данных

Для начала нам нужно собрать набор текстов об израильско-палестинском конфликте, написанных людьми с обеих сторон конфликта.

В этом сообщении блога мы рассмотрим два набора данных:

  • Набор данных Side by Side (SBS): коллекция текстов по истории, собранных в книге Side by Side Сами Адвана, в которой рассматриваются основные события конфликта 1917–2000 гг. и как рассказывают как израильские, так и палестинские историки. Чтобы обработать этот набор данных, мы разделили непрерывный текст на куски по 45 слов, чтобы получить примерно 1500 образцов из каждого класса израильтян и палестинцев.
  • Набор данных газетных статей (IP-новости): здесь мы собираем более крупный и более разговорный набор данных, который включает новостные статьи различных израильских и палестинских авторов, написанные между 2010 и 2017 годами. Статьи израильских авторов принадлежат «Джерузалем пост» и «Нью-Йорк таймс», тогда как статьи палестинских авторов взяты из «Палестинской хроники» и «Нью-Йорк таймс». Для этого набора данных у нас есть примерно 736 статей со средней длиной слова 637.

Модели классификации текста

Теперь мы можем использовать различные архитектуры для классификации текста. В этом сообщении блога мы рассмотрим следующее:

  1. Логистическая регрессия (LR): для классификации вложений слов мы можем усреднить все вложения слов в тексте и классифицировать их.
  2. Рекуррентные нейронные сети (RNN): мы используем трехслойную двунаправленную LSTM-RNN для классификации распределенных вложений текстов.
  3. Сверточные нейронные сети (CNN): как описал Юн Ким, сверточные нейронные сети достигли высокой эффективности в классификации текста.

Кроме того, мы исследуем два метода увеличения данных, чтобы уменьшить переобучение в нашем наборе данных:

  • Замена синонимов (SR): для обоих наборов данных мы генерируем четыре расширенные выборки для каждой обучающей выборки путем случайной замены трех слов (не включая стоп-слова) синонимами, определенными WordNet (Миллер, 1995).
  • Скользящее окно (SW): для обоих наборов данных мы объединили все образцы в обучающем наборе одного и того же описательного происхождения и получили входные данные фиксированной длины для обучения, сдвинув окно размером w=50. по всему тексту с шагом s=5.

Результаты

После обучения этих сетей мы обнаружили, что с помощью аугментации данных мы можем достичь довольно высокой производительности в обоих наборах данных, с максимальной оценкой F1 85,1% для набора данных SBS и максимальной оценкой F1 91,9% для набора данных. набор данных IP-новостей.

Интерпретируемость

Более того, мы можем использовать глубокое обучение, чтобы помочь анализу истории, пытаясь найти, какие термины наиболее показательны для повествовательного происхождения текста. Для этого мы находим все 1, 2, 3 и 4-граммы в RNN и смотрим, какие из них дают наибольшую достоверность вывода:

Это помогает нам сказать, какие термины наиболее характерны для повествовательного происхождения. Вот некоторые идеи, которые мы потенциально можем извлечь из этих терминов. Что касается выдержек из SBS,

  • В израильском повествовании обычно использовались слова религиозного содержания, такие как Ишув(евреи в Израиле) и Йом-Кипур(самый священный день в году в иудаизме).
  • С другой стороны, тексты палестинского происхождения сосредоточены на рассказах известных арабов: Али — распространенное арабское имя, Рафат Али был мучеником, убитым в 1976 году. , а Шейх Изз ад-Дин аль-Кассам был арабским боевиком сирийского происхождения.

Для набора данных IP-News

  • Израильские журналисты часто ссылались на роль палестинских террористов во Второй интифаде (палестинское восстание в начале 2000-х).
  • Палестинские журналисты часто писали об арабских заключенных, содержащихся в лагерях для задержанных, и сравнивали применяемую к ним политику сегрегации с апартеидом.

Эти результаты подтверждают понимание историка о том, что израильский нарратив имеет тенденцию предъявлять религиозные и общинные претензии к Израилю, изображая палестинцев жестокими захватчиками, в то время как палестинский нарратив часто основан на этосе и подчеркивает жертвы, принесенные и страдания их народа.

Если у вас возникнут вопросы, обращайтесь ко мне через [мой личный веб-сайт].