Обработка естественного языка в юридических документах

Понимание бизнеса

Введение в контакты
Юридические контакты являются неотъемлемой частью любой компании, которая готова прокомментировать любую часть соглашения. Контакты очень хорошо написаны и структурированы, чтобы сформировать сильный и точный набор условий, которым необходимо следовать. Написание юридических статей требует, чтобы профессионалы и юристы разработали наилучший способ определения условия. В природе у людей есть интеллектуальное мышление для проектирования значения контекста с другой точки зрения, которое достигает той же цели. Идея контрактов состоит в том, чтобы создать взаимное письменное соглашение между двумя сторонами, каждая из которых может соблюдать условия. Если есть бизнес, есть контракт, поэтому мы можем себе представить, что есть тонны контрактов, которые были написаны, и миллионы условий были включены в юридические документы для формирования сложного набора заказов. Поскольку у людей есть общий смысл того, как общаться и думать, мы можем более подробно рассмотреть, как юристы пишут свои статьи и насколько они похожи, как часто используются слова, какие важные слова включены в статьи, которые относятся к определенному виду юридических документов.

Контракты и НЛП:
Разрешив взаимодействие с компьютером, мы можем глубже понять, как мы хотим понимать юридические документы. Мы можем использовать обработку естественного языка (NLP), которая является подполем лингвистики, и компьютер, специализирующийся на искусственном интеллекте, для анализа текстовых больших данных. Процесс анализа текстов можно разделить на контролируемое и неконтролируемое обучение. В основном НЛП направлено на решение проблемы обучения без учителя, которое имеет гораздо больше проблем и сложных структур. В этой статье я рассмотрю некоторые из основных и самых последних следствий того, как использовать НЛП.

Чтобы глубже погрузиться в юридические термины, наиболее фундаментальные вопросы заключаются в том, чтобы понять общие практики НЛП при анализе текстов с использованием методологий НЛП, таких как «частота терминов», «частота терминов — обратная частота документа (Tf-idf)», «встраивание слов». и «анализ настроений»

Вопрос 1. Какие термины чаще всего встречаются в юридических пунктах

Вопрос 2. Наиболее часто встречающиеся слова по типу предложения

Вопрос 3. Насколько важен термин для документирования? Использование Tf-idf

Вопрос 4. Можем ли мы найти взаимосвязь между юридическими терминами

Вопрос 5. Как объясняется каждый пункт в зависимости от темы.

Вопрос 6. Лучше всего ли анализ тональности работает с юридической точки зрения?

Понимание данных

Исходя из этих данных, мы будем использовать частотный анализ, взвешивание TF/IDF, классификацию пакетов слов, встраивание слов, Skip-Gram/CBOW и скрытое распределение Дирихле (LDA).

Данные

Есть несколько способов получить доступ к юридическим документам, поскольку они более конфиденциальны, и большинство компаний консервативны, чтобы раскрывать такие типы условий. Я нашел источник с открытым исходным кодом для примеров статей, чтобы помочь юристам выбрать любой тип статей и добавить их в контракт.

Сбор данных:

Моим источником данных является сайт LawInsider.com, где я собрал более 21 тыс. юридических статей из 16 типов статей, связанных с «финансами». Я использовал python с другим типом библиотек для очистки, поскольку веб-сайт продолжает блокировать автоматические запросы с веб-сайта, поэтому я использовал библиотеку selenium для извлечения текста и типа предложения.

Обзор данных

Я извлекаю только тип предложения и текст предложения для выполнения неконтролируемого анализа.

На приведенном выше рисунке видно, как будут выглядеть окончательные данные, и они готовы к анализу и изучению интересующего нас бизнес-вопроса.

Оценка результатов

Я подробно изучу, как мы можем раскрыть скрытые идеи юридических документов, чтобы лучше понять, как были сформированы интерпретации и как слова используются в различных структурах, но при этом имеют значения.

Вопрос 1. Какие термины чаще всего встречаются в юридических пунктах

Этот кадр данных показывает каждый термин, n = количество появлений термина, freq = частота термина во всех терминах, ngram = если термин состоит из одного, двух или трех слов, rank = верхняя частота ранжирования.

Как мы замечаем, это самые частотные слова, используемые в юридических оговорках с наиболее частыми. Мы видим, что «должен» и «соглашение» являются самыми высокими, и мы видим некоторые общие слова, которые в основном используются в финансовых пунктах, таких как «доля» и «акция».

Теперь мы можем визуализировать 20 наиболее часто встречающихся терминов и посмотреть, какие из них кажутся более распространенными, чем другие.

Применение закона Ципфа, согласно которому частота появления слова обратно пропорциональна его рангу.

Вопрос 2. Наиболее часто встречающиеся слова по типу предложения

Теперь мы можем видеть, что каждый терм представляет собой частоту по типу предложения, что означает, что термины с более высокими значениями являются типами предложений мест. Мы отмечаем, что проценты и типы оговорок о платежах являются самыми высокими. Это может сказать нам, что наиболее часто встречаются термины этих двух типов.

Вопрос 3. Насколько важен термин для документирования? Использование Tf-idf

Теперь, когда мы поняли наиболее часто встречающиеся слова, мы хотим узнать важные слова для каждого типа предложений, которые использовались чаще и были известны и в других типах. В этом процессе мы учитываем всю взвешенную релевантность терминов и вычисляем ее для всех документов, чтобы получить взвешенную оценку важности tf-idf. IDF рассчитывается путем получения натурального логарифма отношения общего количества документов к нескольким документам, в которых встречается термин.

Приняв во внимание все типы предложений, я выбрал только наиболее релевантные темы, чтобы увидеть, как эти типы объясняются их важными терминами. В финансировании мы видим, что важными словами являются «обязательство» и долг, поскольку они разумно объясняют, что означает финансирование. Что касается процентов, мы замечаем, что верхний термин — это ставка и годовые, и это говорит нам о том, что проценты должны иметь определенный тип ставок и могут рассчитываться по годовому году.

Вопрос 4. Можем ли мы найти взаимосвязь между юридическими терминами

При встраивании слов мы хотим понять, как слова связаны друг с другом, например, как два слова вместе представляют другое, похожее на другие слова.

Мы можем интерпретировать из приведенной выше таблицы, что (доля + финансы) интерпретируются как слова, аналогичные акциям, обычным, выпуску и долгу, которые каким-то образом имеют смысл в контексте финансов. Кроме того, мы видим, что (компания + инвестиции) имеет сходство с управлением и безопасностью, что можно интерпретировать как компанию с инвестициями, которая может иметь тип безопасности акций и управления.

Вопрос 5. Как объясняется каждый пункт по темам.

В LDA используется общий метод для сравнения реальных данных в результатах с реальными данными. Каждая итеративная максимизация приближается к правдоподобию фактических данных, предоставляя распределение тем. LDA использует процесс, называемый выборкой Гиббса, для итерации в направлении правильных значений.

В приведенных выше результатах мы видим, что у нас есть 8 тем, которые состоят из разных слов, образующих тему обо всем корпусе. Это очень важно для понимания того, как юридические документы разделяют общие между собой формы тем.

Теперь мы можем выделить каждую тему в зависимости от типа предложений. Если мы видим светло-зеленый цвет в поле «ownership_of_shares», мы можем заметить, что он занимает большую часть тем, чем другие темы. Мы можем интерпретировать этот тип как похожий на большинство слов из светло-зеленой темы, например, owner_of_shares, как известно, является акцией, которой кто-то может владеть в компании, тема объясняет больше об этом типе пункта, который говорит нам что акции включают в себя приобретателя, b_common, _ company_series и common_stock, что означает, что права собственности относятся к классам названий акций

Вопрос 6. Лучше всего ли анализ тональности работает с юридической точки зрения?

В этом анализе мы хотим знать, как каждый тип предложения имеет оценку настроения отрицательного или положительного смысла. мы можем спросить, пишут ли юристы отрицательные или положительные слова, чтобы манипулировать читателями, или, по крайней мере, считаем ли мы, что договоры о чтении вводят в заблуждение в их словах? Эта гипотеза состоит в том, чтобы понять, создают ли юридические документы какую-либо предвзятость. Например, находите ли вы пункт, в котором говорится: «Вы обязуетесь платить за это уродливое/красивое имущество в течение 30 лет»?

Чтобы ответить на этот вопрос, мы попытаемся спроектировать наш фрейм данных с неконтролируемого на контролируемый, добавив уровни к нашим данным. Я добавлю две библиотеки лексики, которые обозначают наши термины от отрицательного = -5 до положительного = 5, для экспериментов и определения того, чем они отличаются, и поддержки нашего утверждения. Мы собираемся использовать библиотеки Afinn и NRC, чтобы сравнить их оценку и валентность по нашему типу статьи.

На рисунке выше мы замечаем, что расположение каждого типа различается, но, внимательно взглянув на ось X и ось Y, мы можем увидеть, как они расположены от 0 до 1,2, и они находятся в диапазоне от -5 до 5. Это означает, что все типы расположены в середине шкалы и говорят нам о том, насколько термины неоднозначны в предложениях и не включают в себя положительные или отрицательные слова. И именно так юристы хотят добиться толкования статей, чтобы не вводить бизнес в конфликт и строить слова максимально формально и профессионально.

Кроме того, это говорит нам о том, что Afinn и NRC аналогичным образом обозначают термины в юридических документах с 90-процентной корреляцией оценок настроений типов пунктов.

Заключение и будущая работа

Юридический документ кажется более неоднозначным, когда дело доходит до анализа настроений, и не так много поддерживаемых текущих библиотек для терминов юридических документов, поскольку у меня было 100 000 уникальных терминов, но только 5 000 найдены в Afinn и NRC. Юридическим документам нужно больше структур для понимания грамматики. Библиотека LEXNLP в настоящее время понимает такие документы, как срок действия пункта и срок действия документа. Этот тип последствий может помочь юристам перестать просматривать документы и использовать алгоритмы, чтобы легко находить документы с истекшим сроком действия или пункты, срок действия которых скоро истечет.

Спасибо, что прочитали этот пост, и я надеюсь, что вам понравились выводы. Я много анализирую данные, и вы можете найти эту записную книжку на Github.

Гитхаб: https://github.com/mohammedar95

Linkedin: https://www.linkedin.com/in/mohammedar/

Обработка естественного языка в юридических документах

Понимание бизнеса

Понимание данных

Оценка результатов

Заключение и будущая работа

Вопросы по теме