Всемирная паутина является крупнейшим из когда-либо существовавших источников информации и продолжает расти с экспоненциальной скоростью. Она стала системой записи попыток найти ответ на любой вопрос. Поскольку большая часть информации в Интернете находится в неструктурированном формате (например, в виде текста), это хорошо работает, когда вопрос является простым, уже заданным, и хорошее соответствие для вопроса уже было написано в Интернете. Если вам нужно провести более сложное исследование, требующее интерпретации, соединения и консолидации информации из нескольких источников, вам придется потратить часы (а может и дни) на поиск, чтение и сбор исходных материалов вручную.

В glass.ai мы изобрели искусственный интеллект, способный понимать язык в больших масштабах, и применили эту технологию для преобразования неструктурированного контента, найденного в открытом Интернете, в структурированные наборы данных. Эта уникальная технология позволила нам построить Glass.ai Business Knowledge Graph, набор данных, содержащий более 15 миллиардов фактов и отношений о компаниях по всему миру, которые поддерживают свое присутствие в Интернете, и позволяет нам отвечать на те сложные вопросы, которые требуют консолидации знаний из нескольких источников. .

График бизнес-знаний Glass.ai создается и обновляется с помощью интеллектуального поискового робота, обученного распознавать ключевые бизнес-объекты на просматриваемых страницах и применять правила при просмотре веб-страниц, чтобы следовать путям, которые могут привести к дальнейшим релевантная информация. Таким образом, он пытается действовать как человек, изучающий интересующую его тему или область, хотя он может делать это в гораздо большем масштабе, 24 часа в сутки.

График бизнес-знаний был обучен распознавать бизнес-сайты и извлекать описания бизнеса, людей, связанных с каждым бизнесом, продуктами и услугами, новостями, списками вакансий и контактной информацией, такой как адреса. Каждый классификатор для этих данных был загружен небольшим количеством примеров, из которых были построены языковые модели. Эти небольшие, но очень точные языковые модели состоят из словарей слов и фраз, способных точно ориентироваться на каждый тип контента. Это важно в контексте понимания веб-масштаба, поскольку другие, статистические, методы теряют точность, поскольку они пытаются обобщить за пределы обучающей выборки. Что-то, что гарантированно произойдет при попытке прочитать такой обширный источник, как открытая сеть.

Языковые модели поддерживаются крупномасштабной онтологией, созданной на основе краудсорсинговых ресурсов знаний, таких как Википедия, WordNet, GeoNames и бизнес-глоссарии онлайн. Это обеспечивает дальнейшую категоризацию контента по темам, бизнес-секторам и местоположению и, вместе с глубокими знаниями интеллектуального поискового робота о структурах веб-сайтов, позволяет извлекать богатую базу знаний фактов, из которых построена диаграмма бизнес-знаний.

Поскольку Glass.ai Business Knowledge Graph представляет собой оперативный набор данных, качество извлеченного контента регулярно проверяется путем независимой ручной проверки случайных выборок ключевых сущностей и атрибутов. Это постоянно показывает качество фактов, собранных в Business Knowledge Graph, на уровне 95% или выше. Если мы сравним это с другими автоматически сопоставляемыми графами знаний¹, то единственным, который соответствует этому знаку качества, является YAGO3 (см. таблицу выше). Тем не менее, YAGO3² был построен из структурированных информационных блоков, которые присутствуют на некоторых страницах Википедии, поэтому это значительно более простая проблема, чем попытка интерпретировать контент из открытой сети. С точки зрения масштаба Google Knowledge Graph немного больше, чем Business Knowledge Graph: 18 миллиардов фактов против 15 миллиардов. Однако эта обширная база знаний не была проверена на качество. Было протестировано меньшее подмножество в Хранилище знаний Google³, и гораздо меньший набор фактов (271 М) достиг качества 90 %. Но — опять же — следует отметить, что это чтение из более простого источника структурированного контента в Интернете, из веб-таблиц и стандартной веб-разметки. Глядя на базы знаний, созданные из неструктурированного контента в открытом Интернете, график бизнес-знаний Glass.ai значительно превосходит лучшие из них с точки зрения качества, 95% против 85% для NELL⁴, и значительно шире с точки зрения размера. NELL содержит всего 2 миллиона фактов против 15 миллиардов в Business Knowledge Graph.

Диаграмма бизнес-знаний Glass.ai демонстрирует потенциал открытой сети для извлечения структурированных, запрашиваемых данных посредством масштабируемого и точного понимания машинного языка. В Glass.ai это позволяет нам быстро отвечать на те сложные бизнес-вопросы, которые потребовали бы значительных усилий для исследования с помощью других средств, и предоставляет богатый контекстный анализ, который применялся для таких сценариев использования, как картирование секторов, таргетинг на клиентов, мониторинг конкурентов и обнаружение новых тенденции, и это лишь некоторые из них.

[1]: Хайко Паульхейм. Уточнение графа знаний: обзор подходов и методов оценки. http://semantic-web-journal.net/system/files/swj1167.pdf. 2016.

[2]: Фарзане Махдисолтани, Джоанна Биега и Фабиан М. Суханек. YAGO3: База знаний из многоязычных Википедий. https://suchanek.name/work/publications/cidr2015.pdf. 2015.

[3]: Синь Луна Донг и др. др. Knowledge Vault: веб-подход к вероятностному объединению знаний. https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45634.pdf. 2014.

[4]: Т. Митчелл и др. др. Бесконечное обучение. https://www.cs.cmu.edu/~tom/pubs/NELL_aaai15.pdf. 2015.