Как работают такие приложения, как Inshorts
Введение
Сдвигали ли вы когда-нибудь обширную запись в короткий отрывок? Насколько вы взяли? Физическое создание наброска может быть утомительным и повторяющимся. Синопсис запрограммированного содержания гарантирует преодоление таких трудностей и позволяет вам сформулировать ключевые мысли в небольшом эффективном сочинении. Или вы когда-нибудь пробовали портативное приложение Inshorts? Это оригинальное новостное приложение, которое преобразует новостные статьи в краткое изложение из 60 слов. Более того, именно это мы и реализуем в этом проекте - суммирование текста.
Резюмирование текста - это метод создания краткого и точного резюме объемных текстов с акцентом на разделах, которые передают полезная информация и без потери общего смысла.
Автоматическое резюмирование текста направлено на преобразование длинных документов в сокращенные версии, что может быть трудным и дорогостоящим, если сделать это вручную. Алгоритмы машинного обучения могут быть обучены понимать документы и определять разделы, которые содержат важные факты и информацию, прежде чем создавать необходимые обобщенные тексты.
Зачем нужно реферирование текста?
В связи с нынешним потоком информации, распространяющейся по компьютеризированному пространству, которое по большей части представляет собой неорганизованную литературную информацию, существует потребность в создании программных аппаратов синопсиса контента, которые позволяют людям эффективно получать от них знания. В настоящее время мы ценим быстрый доступ к огромным объемам данных. Как бы то ни было, большая часть этих данных повторяется, не имеет отношения к делу и может не передать запланированное значение. Например, если вы ищете точные данные из новостной онлайн-статьи, вам может потребоваться изучить ее суть и вложить много энергии в устранение бессмысленной информации, прежде чем получить нужные данные. Следовательно, использование запрограммированных средств суммирования контента, пригодных для извлечения ценных данных, которые забывают несущественную и несущественную информацию, становится критически важным. Выполнение синопсиса может повысить наглядность архивов, сократить время, затрачиваемое на поиск данных, и учесть, что больше данных нужно разместить на определенной территории.
Преимущества реферирования текста
- Обобщение сокращает время просмотра
- При изучении отчетов контуры упрощают процедуру определения.
- Обобщение повышает адекватность упорядочивания
- Резюмирующие вычисления менее односторонни, чем человеческие рефери.
- Персонализированные резюме полезны в вопросно-ответных системах, поскольку они предоставляют персонализированную информацию
- Использование программных структур или рамок суммирования позволяет теоретическим бизнес-администраторам создавать столько архивов контента, которые они могут обрабатывать
Кроме того, применение реферирования текста сокращает время чтения, ускоряет процесс поиска информации и увеличивает количество информации, которая может уместиться в области. Стратегии обобщения содержания открыто сводятся к абстрактному и экстрактивному синопсису.
Различные подходы к обобщению текста
В нашем проекте мы собираемся глубже понять метод обобщения Extractive. Метод извлечения состоит из выбора основных предложений, отрывков и т. Д. Из первой оригинальной копии и объединения их в более короткую структуру. Примечательность предложений решительно основана на фактических и фонетических особенностях предложений.
Обобщение на основе итогового вывода - извлекающее обобщение
Метод экстрактивного реферирования состоит из выбора важных предложений или абзацев из исходного текста и объединения их в более короткий текст. Важность предложений определяется на основе некоторых статистических и лингвистических особенностей предложений, извлекаемых и помещаемых в выходной текст. Анабстрактивное обобщение пытается извлечь основную концепцию текста на понятном естественном языке без необходимости использования текстовых фраз. Каждое абстрактное обобщение состоит из части понимания для интерпретации текста и поиска новых концепций и части производства для создания нового более короткого текста с наиболее важной информацией из исходного документа. В этом методе предложения могут быть опущены или изменены, или даже могут быть созданы новые предложения. Следует отметить, что этот метод очень сложен и даже сложнее машинного перевода. В этом исследовании больше внимания уделяется извлечению резюмирования текста, поскольку при составлении резюме учитывается весь документ, в отличие от других подходов, которые рассматривают только определенную часть документа.
Подход к обучению без учителя
Неконтролируемые подходы требуют использования самого сложного алгоритма для компенсации недостатка человеческих знаний и не нуждаются в человеческих резюме (пользовательский ввод) при принятии решения о важных характеристиках документа. Сводки без учителя обеспечивают более высокий уровень автоматизации по сравнению с моделями с учителем и больше подходят для обработки больших данных. Модели обучения без учителя оказались успешными в задаче реферирования текста.
Графический подход
Модели на основе графиков широко используются при резюмировании документов, поскольку графики могут эффективно представлять структуру документа. Было использовано извлекающее обобщение текста с использованием внешних знаний из Википедии, включая структуру двудольного графа. Предлагается итеративный алгоритм ранжирования, который эффективен при выборе важных предложений, а также обеспечивает согласованность итогового резюме. PageRank - это подход, основанный на графах, где значимость предложения определяется концепцией косинусного сходства. Предложения в документе представлены в виде графика, а края между предложениями представляют собой значения подобия взвешенного косинуса. Предложения объединяются в группы на основе их показателей сходства, а затем предложения ранжируются на основе их оценок PageRank, аналогично алгоритму PageRank, за исключением того, что в методе PageRank граф сходства неориентирован.
Итак, мы будем использовать вышеупомянутые темы для обобщения текста. Ознакомьтесь с соответствующим кодом и пояснением здесь