Методы экстрактивного реферирования текста выполняют реферирование, выбирая части текстов и конструируя резюме, в отличие от абстрактных методов, которые концептуализируют резюме и перефразируют его.

Недавно во время исследования я наткнулся на sumy от miso-belica, который отвлекает вас от самостоятельной реализации этого алгоритма. От легендарного средства суммирования Luhn до средства суммирования Эдмундсона эта библиотека обеспечивает простой способ выполнения извлекающего суммирования, как показано ниже.

Это была задача обобщения текста в наборах данных новостей BBC [http://mlg.ucd.ie/datasets/bbc.html] при сравнении производительности этих извлекающих алгоритмов.

Сначала начнем с установки сумы

sudo pip install sumy

Мы рассмотрим все релевантные абстрактные рефераты и реализуем их с помощью sumy. Существуют различные методы абстрактного обобщения, каждый метод реализуется по-разному на основе подходов исследователей, эти методы включают кластеризацию, теорию графов, лексические цепочки, словесную сеть и т. Д., Некоторые из них являются статистическими по своей природе, другие имеют глубокие корни в лингвистике, в то время как другие решительно пытаются объединить два или больше техник

#Plain text parsers since we are parsing through text
from sumy.parsers.plaintext import PlaintextParser

#for tokenization
from sumy.nlp.tokenizers import Tokenize

После импорта соответствующих библиотек для нашей обработки, мы загружаем синтаксический анализ текстового файла, а затем токенизируем его.

#name of the plain-text file ~ bbc news dataset
file = “001.txt” 
parser = PlaintextParser.from_file(file, Tokenizer(“english”))

Подавайте результаты своим резюмирующим

1. Лекс Ранг

Это текстовый сумматор на графической основе.

from sumy.summarizers.lex_rank import LexRankSummarizer 
summarizer = LexRankSummarizer()
#Summarize the document with 2 sentences
summary = summarizer(parser.document, 2) 
for sentence in summary:
 print(sentence)

Результаты из моей записной книжки

In an effort to live up to its reputation in the 1990s as “an island of democracy”, the Kyrgyz President, Askar Akaev, pushed through the law requiring the use of ink during the upcoming Parliamentary and Presidential elections.
It dries and is not visible under normal light.

2. Лун

Это один из первых алгоритмов, предложенных известным исследователем IBM, в честь которого он был назван. Он оценивает предложения на основе частоты наиболее важных слов.

from sumy.summarizers.luhn import LuhnSummarizer
summarizer_1 = LuhnSummarizer()
summary_1 =summarizer_1(parser.document,2)
for sentence in summary_1:
 print(sentence)

Результаты для Luhn Summarizer

The Kyrgyz Republic, a small, mountainous state of the former Soviet republic, is using invisible ink and ultraviolet readers in the country's elections as part of a drive to prevent multiple voting.
In an effort to live up to its reputation in the 1990s as "an island of democracy", the Kyrgyz President, Askar Akaev, pushed through the law requiring the use of ink during the upcoming Parliamentary and Presidential elections.

3. АЛП

Скрытый семантический анализ - это неконтролируемый метод реферирования, он сочетает в себе частотные методы терминов с разложением по сингулярным значениям для резюмирования текстов. Это один из самых последних предложенных способов суммеризации.

from sumy.summarizers.lsa import LsaSummarizer
summarizer_2 = LsaSummarizer()
summary_2 =summarizer_2(parser.document,2)
for sentence in summary_2:
 print(sentence)

Результаты для сумматора LSA

This new technology is causing both worries and guarded optimism among different sectors of the population.
In Serbia, for example, both Christian and Islamic leaders assured their populations that its use was not contrary to religion.

4. Рейтинг текста

Рейтинг текста - это техника резюмирования на основе графиков с извлечением ключевых слов из документа.

from sumy.summarizers.text_rank import TextRankSummarizer
summarizer_3 = TextRankSummarizer()
summary_3 =summarizer_3(parser.document,2)
for sentence in summary_3:
 print(sentence)

Результаты для ранжирования текста

In an effort to live up to its reputation in the 1990s as "an island of democracy", the Kyrgyz President, Askar Akaev, pushed through the law requiring the use of ink during the upcoming Parliamentary and Presidential elections.
The use of ink is only one part of a general effort to show commitment towards more open elections - the German Embassy, the Soros Foundation and the Kyrgyz government have all contributed to purchase transparent ballot boxes.

Заключение

Выборка всего несколько. Результаты разумны и могут использоваться людьми для общего понимания длинных текстов и их содержания. Выбор алгоритма теперь за вами

Это позволило довольно легко резюмировать документ, но также важно, чтобы инженер понимал основную статистику и математическую реализацию каждого алгоритма, чтобы увидеть, какой из них хорошо подходит для вашей задачи.