Несколько лет назад то, что мы сейчас называем «Корпоративный поиск», имело довольно простую функциональность — обычно это была простая возможность индексировать файлы. Расширенные продукты иногда включали в себя базовые отчеты, но все в основном было сосредоточено на процессе индексации и очень редко на активности запросов пользователей. Поверхностной контекстной информации тогда тоже не было видно.

В настоящее время технологии продвинулись вперед и распространились повсюду. Мы даже начинаем комбинировать глубокое обучение и символическое мышление, чтобы научить компьютеры программировать самих себя, делая прогресс еще более экспоненциальным.

После успеха Google, Bing и других, наделенных огромными объемами данных, обрабатываемых механизмами машинного обучения и НЛП, мы теперь привыкли к интуитивно понятным, автоматически корректирующимся результатам поиска, которые (даже при нечетком описании) могут дать нам точную информацию. результаты, которые мы хотели. Более того, эти поисковые системы могут даже предлагать то, о чем мы даже не подозревали.

Казалось бы, при нынешнем состоянии технологий мы уже привыкли к аналогичному опыту в наших корпоративных возможностях поиска как внутреннего, так и общедоступного контента. Но мы?

Это не без проблем

Хитрость в том, что интранет — это не Интернет, а поиск часто является бесхозным продуктом, управляемым ИТ-командой, у которой всегда мало времени, бюджета и часто мало опыта в поиске релевантной информации через поиск. Корпоративный поиск сопряжен с рядом проблем: корпоративные запросы обычно имеют «правильный ответ»; безопасность на уровне документа — уровень разрешений, связанный со многими, если не с большинством документов; множество различных форматов файлов; много неструктурированных данных и, самое главное, отсутствие команды, чья работа заключается в обеспечении качества контента и поиска — учитывая, что такой контент обычно рассредоточен по разрозненным отделам.

Но в последнее время мы наблюдаем значительное улучшение корпоративного поиска, которое обещает качественный скачок в качестве, точности и персонализации поиска — благодаря машинному обучению (МО). И чтобы внести ясность, машинное обучение не взаимозаменяемо с ИИ. Технически ML — это реализация ИИ.

Машинное обучение — это не магия

Большинство корпоративных поисковых решений не очень удобны для пользователя. Чтобы наилучшим образом использовать машинное обучение для улучшения хорошо настроенного поиска, кто-то должен потратить время на обучение и настройку этой поисковой системы. Тем не менее, очень немногие поставщики прилагают необходимые усилия, чтобы помочь клиентам правильно настроить поиск с соответствующими синонимами, стоп-словами и подготовкой запросов, чтобы они могли работать хорошо.

Вооружившись машинным обучением и обработкой естественного языка, мы, наконец, можем начать представлять наиболее релевантные и даже персонализированные результаты корпоративного поиска, представляемые пользователю через контекстный поиск, который некоторые аналитики и поставщики называют «Insight Engines».

Контекстный поиск — это технология поиска, которая фокусируется на контексте запроса, а также на намерениях пользователя, чтобы получить наиболее релевантный набор результатов. Он анализирует даже самые сложные неструктурированные данные для извлечения именованных сущностей, таких как имена людей, организаций, местоположения и многое другое. Это очень эффективно для классификации случайных текстов по категориям на основе различных контекстов. (например, при поиске «Париж» вы должны получить разные результаты, если вы ищете города, и если вы ищете знаменитостей).

ML не освобождает вас от управления вашей поисковой платформой. Как и в случае с людьми, машинное обучение происходит путем повторения и наблюдения за поведением во времени. Итак, что вы можете сделать, чтобы хотя бы начать видеть некоторые преимущества технологии ML, которые мы теперь видим интегрированными с коммерческими технологиями поиска и технологиями поиска с открытым исходным кодом?

Независимо от того, какие передовые технологии вы используете, вы все равно должны обращать внимание на основы. Во-первых, если вы используете настраиваемый поиск в своей организации, сделайте привычкой следить за своей поисковой платформой. Скорее всего, у вашей ИТ-команды есть инструменты, которые отслеживают поведение критически важного программного обеспечения — да, поиск имеет решающее значение — это может сделать жизнь ваших сотрудников намного проще и продуктивнее. Поговорите со своей ИТ-командой, попросите их настроить мониторинг поиска: если возможно, пусть они отслеживают запросы, представленные результаты, просмотренный контент и, самое главное, отсутствие совпадений. Если пользователь выполняет поиск, вероятно, он или она ожидает увидеть контент, соответствующий запросу. Если поиск не дает никакого контента, либо ваш пользователь ищет контент, которого у вас нет, либо ваш контент не помечен должным образом. Выбранная вами технология поиска должна включать в себя способ, с помощью которого пользователи смогут направлять машину в рамках обучающих данных — как это происходит с капчей и надоедливым Отметьте квадраты, где вы видите светофоры, которые используют человеческое мышление для обучения алгоритмов самоанализа. вождение автомобиля».

Практика делает совершенным

Машинное обучение не обречено на провал и не является панацеей для решения корпоративных проблем при поиске и управлении данными и информацией.
Запланируйте персонал и время для надлежащего обучения машинному обучению, убедитесь, что оно хорошо интегрировано с вашей поисковой платформой, и помните, что даже поиск с помощью ИИ не является волшебством: для его настройки и управления требуется время. Но без этого обучения и управления вы будете недовольны поиском на основе машинного обучения… или любым другим инструментом на основе машинного обучения, если уж на то пошло.

— -
В Untrite мы применяем алгоритмы и опыт машинного обучения и обработки естественного языка, чтобы разобраться в фрагментированных данных в вашей организации. Наша программная платформа получает неструктурированные и структурированные данные из различных источников и предлагает интеллектуальные, ориентированные на бизнес способы извлечения из них ценности.