Сегодня компании начинают понимать, что во всех неструктурированных данных, с которыми они ежедневно работают, скрыта большая ценность, и они скрыты в архивах, размер которых с годами значительно увеличился. Мы наблюдаем возрождение отрасли, состоящей из многих игроков, предлагающих решения на основе искусственного интеллекта, организаций, обращающихся за помощью в понимании содержания их документов, новых важных ролей, таких как роль специалиста по данным.

Поскольку эта отрасль очень молода, мы также фиксируем трудности с пониманием того, что на самом деле представляет собой обработка естественного языка. Большинство компаний смотрят на это как на одну большую технологию и предполагают, что предложения поставщиков могут различаться по качеству и цене, но в целом оставаться одинаковыми. Правда в том, что НЛП — это не одно и то же; это не один инструмент, а скорее набор инструментов. Когда мы рассматриваем рынок в целом, наблюдается большое разнообразие, даже несмотря на то, что у большинства поставщиков есть только один инструмент, и этот инструмент не подходит для решения каждой проблемы. Хотя понятно, что технический партнер, когда к нему обращается потенциальный клиент, попытается решить бизнес-кейс, используя имеющийся у него инструмент, с точки зрения клиента это не идеально. Каждая проблема требует отдельного решения.

На протяжении многих лет я работал со многими клиентами из каждой отрасли, и, поскольку мне посчастливилось работать в компании, в наборе которой было много инструментов, я мог каждый раз выбирать новый подход. Наиболее подходящий инструмент для работы. Мои типичные вопросы:

1) Актуальна ли методология? Учитывая ту же функциональность, имеет ли смысл предпочесть, например, глубокое обучение символическому?

2) Что ожидается от решения ИИ? Учитывая конкретный вариант использования, какая функция НЛП является наиболее подходящей?

Понимая, что эта тема может легко потребовать двухнедельного семинара для надлежащего изучения, я попытаюсь обобщить свой опыт, используя несколько примеров (и, конечно, применив необходимое упрощение).

Начну с того, что с моей точки зрения на эту проблему эти два вопроса очень тесно связаны. Некоторые подходы (например, основанные на машинном обучении) могут отвечать требованиям быстрого выхода на рынок, на самом деле можно очень быстро предоставить решение с достаточно хорошей производительностью, по крайней мере, для некоторых вариантов использования (например, таких, где вы можете игнорировать баланс между Точность и полнота), особенно когда наше решение основано на большом архиве, который по какой-то причине был предварительно помечен вручную в прошлое. С другой стороны, проект может требовать высокой точности и высокой полноты, но в основном он вращается вокруг имен собственных или кодов, которые уникальны (то есть редко представляют какую-либо двусмысленность), поэтому проще подойти к проблеме, используя прямой список. ключевых слов. К сожалению, у нас нет строгих указаний относительно того, когда методология лучше других, этот выбор тесно связан с конкретным решением, которое мы хотим построить… но есть несколько общих правил. Поскольку все в жизни имеет свои преимущества и недостатки, вот (опять же, упрощенный) взгляд:

– Технология ключевых слов (также известная как поверхностная лингвистика) предпочтительнее, когда используются списки однозначных слов, но не рекомендуется, когда релевантные слова могут иметь несколько значений.

- Символика (синтаксический анализ, семантика, глубокая лингвистика) собирает информацию в мельчайших подробностях, и это идеально, когда нужно убрать шум из результатов, но не лучшее решение, когда нужна цель быть достигнуто быстро или если усилия должны быть сведены к минимуму (если мы не говорим об уже настроенном решении, на самом деле некоторые поставщики NLP специализируются на одной отрасли, что ускоряет разработку)

Машинное обучение (статистический подход) в последние годы сильно вернулось в виде методов, которые мы обычно называем глубоким обучением, в основном из-за обещания, что потребуется очень мало усилий и времени для предоставления решения, начиная с с нуля; и это правда, что иногда невероятно легко достичь 75% точности с очень простым алгоритмом (при условии, что у вас есть достаточно большой корпус, который был помечен, или вы готовы поработать). Вероятно, поэтому многие стартапы, известные своей осторожностью в вопросах расходования средств, оседлали эту лошадь. Если ваше приложение ожидает точность производственного уровня (которую я лично определяю как F-показатель выше 85%), то проблема может показаться непреодолимой, в зависимости от варианта использования, на самом деле в последнее время мы читаем все больше и больше статей, посвященных машинному обучению. не является идеальным подходом к проблемам NLP, и некоторые крупные игроки изменили свое сообщение на что-то вроде Машинное обучение здесь, чтобы работать с вами.

Но давайте поговорим об инструментах в наборе инструментов. Вот краткий, неполный список: Классификация, Извлечение сущностей, Тональность, Обобщение, Части речи, Тройки (SAO), Отношения, Анализ фактов, Связанные данные, Эвристика, Эмоции/Чувства/Настроения. Почти каждый отдельный вариант использования в вычислительной лингвистике можно преобразовать в мета-теги; документ проходит через движок, и он становится богаче, украшенным списком тегов, указывающим на ключевые разведывательные данные, связанные с документом. Вероятно, именно эта простая концепция заставила так много компаний думать, что все технологии НЛП одинаковы, но суть в том, чем вы хотите пометить свои документы? Категории из стандартной таксономии? Названия компаний, упомянутых в тексте? Указание на общее отношение к документу, выраженное как «позитивное» или «негативное»? Может быть, комбинация инструментов (настроение для каждой сущности, извлеченной из документа)?

Поставщики текстовой аналитики по своей природе решают проблемы. Если поставщик предлагает, например, только классификацию, довольно легко привести аргумент о том, как решить любой вариант использования в процессе классификации контента. Точно так же я могу забить гвоздь в стену, используя свой ботинок, но если бы у меня был молоток, я бы, вероятно, воспользовался им. Как мы можем распознать инструмент, который нам нужен для каждого проекта? Некоторые из них более очевидны, чем другие, но позвольте мне дать вам несколько советов о самых известных:

- Классификация должна использоваться, когда конечная цель вашего приложения заключается в признании того, что документ принадлежит к очень конкретному, заранее определенному классу (спорт, продукты питания, страховые полисы, финансовые отчеты об энергетическом рынке на юге страны). Восточная Азия, …). Например, хранить журналы в коробке и наклеивать на нее этикетку. Имя класса не обязательно упоминается в документе, принадлежащем этому классу.

Извлечение сущностей полезно, когда вас интересует переменная часть вашего контента, в частности те непредопределенные элементы, темы или имена, которые действительно упоминаются.

- Сводка помогает, когда ваше решение требует ускорения исследования, поэтому вы хотите иметь возможность автоматически создавать небольшие рефераты, которые дают представление о содержании документа, без необходимости читать его полностью, пока вы не узнаете его. имеет отношение к вашему исследованию

- Настроения и Эмоции (или Чувства, или Настроения, в зависимости от поставщика) говорят сами за себя; довольно популярен в приложениях Analytics и BI, особенно когда речь идет об измерении репутации бренда/продукта на потребительском рынке (посредством анализа социальных сетей).

- Отношения и тройки/SAO (например, Компания X приобретает компанию Y с тегом Компания X + Приобретение + Компания Y) полезны, когда искомая информация немного сложнее, чем обычно. ; иногда нас просто интересуют совпадения разных именованных объектов (людей, компаний и т. д.) в одном и том же документе, в других случаях нам нужно знать, был ли конкретный объект объектом действия с участием другого объекта.

Невозможно перечислить полный набор функций, предлагаемых всеми поставщиками технологий в пространстве НЛП, и, что более важно, НЛП все еще растет с каждым годом, и его мир продолжает расширяться, возможно, поэтому иногда трудно разобраться. через все, что предлагает рынок. Но знание того, что каждый продукт сильно отличается, помогает сделать правильный выбор.