Все говорят, что читать полезно. И это. Но иногда авторы просто увлекаются своим письмом и делают вещи гораздо более подробными, чем нужно, что означает, что вы в конечном итоге читаете много чепухи между полезными фрагментами текста, что, в свою очередь, означает, что вы в конечном итоге тратите время впустую. это можно было бы лучше потратить на что-то другое, например, на чтение важных фрагментов текста и получение полезной информации.

И если вы еще не заметили, многое в предыдущем абзаце было именно таким — пустяком. Прости.

Так как же убедиться, что вы не тратите время на чтение слов, которые не имеют никакого значения? Ну, во-первых, вы можете быть разборчивы в своих списках чтения, выбирая только хорошо отредактированные источники от уважаемых авторов. Или вы можете просто извлечь полезные биты!

Автоматическое суммирование текста

Вместо того, чтобы читать все, что вы видите, заставьте свой компьютер кормить вас только важными фрагментами! Компьютеры могут обобщать двумя способами:

  1. Извлекающий — алгоритм выбирает наиболее важные предложения из фрагмента текста и предоставляет их вам дословно.
  2. Абстрактное — так люди (обычно) резюмируют — используя свои собственные слова для описания отрывков. Компьютеры тоже могут это делать благодаря нейронным сетям.

Методы извлечения

Любопытно узнать, как определяются «важные» предложения? Вот несколько способов. Пропустите этот бит, если вы просто хотите меньше читать.

  1. Позиционное — просто выберите первое и последнее предложения из каждого абзаца. Полезно для одних статей, не очень для других.
  2. Метод Луна — определяет наиболее важные термины (используя tf-idf) и выбирает предложения с более высокой концентрацией этих важных терминов.
  3. Метод Эдмундсона. В основном используется метод Луна, но также используются дополнительные слова, которые являются более важными, слова-стигмы, которые отрицательно влияют на важность предложения, и пустые слова, которые не оказывают никакого влияния (в отличие от этой статьи).
  4. LexRank — создает матрицу подобия, чтобы показать, насколько близко два предложения друг к другу. Представьте каждое предложение в виде узла на графе с ребрами в зависимости от их сходства. Удалите ребра с меньшими весами. Предложения, которые связаны с несколькими другими предложениями, более важны. Кроме того, важность предложения зависит от важности других предложений, рекомендующих его.

Извлечь сумму(у) вещей!

Теперь, когда вы (возможно) знаете, как работают методы извлечения, давайте займемся собственно извлечением. Библиотека sumy особенно удобна для этого.



Я не собираюсь резюмировать это для вас здесь, так что изучите это сами!

Сделайте его менее громоздким

sumy может обобщать текст, гиперссылки и файлы. Но иногда вы просто хотите обобщить конкретный фрагмент текста. Вы можете скопировать его в файл и попросить sumy обобщить его, но это будет очень утомительно, если вы планируете делать это все время. Вот несколько идей, как сделать его более удобным:

  1. Расширение Chrome! — Специально для этого я написал расширение для хрома SumFly! Выделите текст, щелкните правой кнопкой мыши и нажмите «Подвести итоги»!

Вы можете получить расширение в Интернет-магазине Chrome:



Я затронул расширения здесь:



И вот где вы можете получить исходный код:



Конечно, фактическое обобщение происходит на внутреннем сервере, и все, что делает расширение, — это вызывает этот API. Написание API не должно быть слишком сложным — просто обратитесь к документации sumy. И не стесняйтесь изменять вещи по своему усмотрению!

2. Запустите команду наблюдения, которая отслеживает изменения в конкретном файле, и запускайте сценарий для суммирования содержимого при каждом изменении файла.

3. Попросите друга — вам не нужно выполнять какую-либо работу самостоятельно, просто попросите друга проинструктировать вас. Хотя, возможно, вам придется его уговорить…

Подробнее!

Как бы иронично это ни звучало, меньшее чтение на самом деле позволяет вам читать больше, поскольку вы тратите меньше времени на чтение ерунды по каждой статье, что позволяет вам читать больше статей. Конечно, обобщение не идеально, и иногда хочется прочитать все целиком. Но в следующий раз, когда вы найдете что-то интересное в Интернете, сначала подведите итог, а потом посмотрите, не захотите ли вы углубиться в него.