Как работают такие приложения, как Inshorts

Введение

Сдвигали ли вы когда-нибудь обширную запись в короткий отрывок? Насколько вы взяли? Физическое создание наброска может быть утомительным и повторяющимся. Синопсис запрограммированного содержания гарантирует преодоление таких трудностей и позволяет вам сформулировать ключевые мысли в небольшом эффективном сочинении. Или вы когда-нибудь пробовали портативное приложение Inshorts? Это оригинальное новостное приложение, которое преобразует новостные статьи в краткое изложение из 60 слов. Более того, именно это мы и реализуем в этом проекте - суммирование текста.
Резюмирование текста - это метод создания краткого и точного резюме объемных текстов с акцентом на разделах, которые передают полезная информация и без потери общего смысла.
Автоматическое резюмирование текста направлено на преобразование длинных документов в сокращенные версии, что может быть трудным и дорогостоящим, если сделать это вручную. Алгоритмы машинного обучения могут быть обучены понимать документы и определять разделы, которые содержат важные факты и информацию, прежде чем создавать необходимые обобщенные тексты.

Зачем нужно реферирование текста?

В связи с нынешним потоком информации, распространяющейся по компьютеризированному пространству, которое по большей части представляет собой неорганизованную литературную информацию, существует потребность в создании программных аппаратов синопсиса контента, которые позволяют людям эффективно получать от них знания. В настоящее время мы ценим быстрый доступ к огромным объемам данных. Как бы то ни было, большая часть этих данных повторяется, не имеет отношения к делу и может не передать запланированное значение. Например, если вы ищете точные данные из новостной онлайн-статьи, вам может потребоваться изучить ее суть и вложить много энергии в устранение бессмысленной информации, прежде чем получить нужные данные. Следовательно, использование запрограммированных средств суммирования контента, пригодных для извлечения ценных данных, которые забывают несущественную и несущественную информацию, становится критически важным. Выполнение синопсиса может повысить наглядность архивов, сократить время, затрачиваемое на поиск данных, и учесть, что больше данных нужно разместить на определенной территории.

Преимущества реферирования текста

  1. Обобщение сокращает время просмотра
  2. При изучении отчетов контуры упрощают процедуру определения.
  3. Обобщение повышает адекватность упорядочивания
  4. Резюмирующие вычисления менее односторонни, чем человеческие рефери.
  5. Персонализированные резюме полезны в вопросно-ответных системах, поскольку они предоставляют персонализированную информацию
  6. Использование программных структур или рамок суммирования позволяет теоретическим бизнес-администраторам создавать столько архивов контента, которые они могут обрабатывать

Кроме того, применение реферирования текста сокращает время чтения, ускоряет процесс поиска информации и увеличивает количество информации, которая может уместиться в области. Стратегии обобщения содержания открыто сводятся к абстрактному и экстрактивному синопсису.

Различные подходы к обобщению текста

В нашем проекте мы собираемся глубже понять метод обобщения Extractive. Метод извлечения состоит из выбора основных предложений, отрывков и т. Д. Из первой оригинальной копии и объединения их в более короткую структуру. Примечательность предложений решительно основана на фактических и фонетических особенностях предложений.

Обобщение на основе итогового вывода - извлекающее обобщение

Метод экстрактивного реферирования состоит из выбора важных предложений или абзацев из исходного текста и объединения их в более короткий текст. Важность предложений определяется на основе некоторых статистических и лингвистических особенностей предложений, извлекаемых и помещаемых в выходной текст. Анабстрактивное обобщение пытается извлечь основную концепцию текста на понятном естественном языке без необходимости использования текстовых фраз. Каждое абстрактное обобщение состоит из части понимания для интерпретации текста и поиска новых концепций и части производства для создания нового более короткого текста с наиболее важной информацией из исходного документа. В этом методе предложения могут быть опущены или изменены, или даже могут быть созданы новые предложения. Следует отметить, что этот метод очень сложен и даже сложнее машинного перевода. В этом исследовании больше внимания уделяется извлечению резюмирования текста, поскольку при составлении резюме учитывается весь документ, в отличие от других подходов, которые рассматривают только определенную часть документа.

Подход к обучению без учителя

Неконтролируемые подходы требуют использования самого сложного алгоритма для компенсации недостатка человеческих знаний и не нуждаются в человеческих резюме (пользовательский ввод) при принятии решения о важных характеристиках документа. Сводки без учителя обеспечивают более высокий уровень автоматизации по сравнению с моделями с учителем и больше подходят для обработки больших данных. Модели обучения без учителя оказались успешными в задаче реферирования текста.

Графический подход

Модели на основе графиков широко используются при резюмировании документов, поскольку графики могут эффективно представлять структуру документа. Было использовано извлекающее обобщение текста с использованием внешних знаний из Википедии, включая структуру двудольного графа. Предлагается итеративный алгоритм ранжирования, который эффективен при выборе важных предложений, а также обеспечивает согласованность итогового резюме. PageRank - это подход, основанный на графах, где значимость предложения определяется концепцией косинусного сходства. Предложения в документе представлены в виде графика, а края между предложениями представляют собой значения подобия взвешенного косинуса. Предложения объединяются в группы на основе их показателей сходства, а затем предложения ранжируются на основе их оценок PageRank, аналогично алгоритму PageRank, за исключением того, что в методе PageRank граф сходства неориентирован.

Итак, мы будем использовать вышеупомянутые темы для обобщения текста. Ознакомьтесь с соответствующим кодом и пояснением здесь