Построение графа знаний для цифрового помощника с использованием машинного интеллекта.

Те времена, когда печатные СМИ и библиотеки были основными источниками информации, давно прошли. Поиск по ключевым словам и жесткие каталоги также уступают место поиску и исследованию информации, подобной человеческому. Цифровые помощники, которые разговаривают, понимают местный контекст и понимают концепции, находятся в авангарде этого развития.

Платформа цифрового помощника Ozlo основана на машинном интеллекте, который опирается на четыре столпа технологий: (1) данные, (2) параллелизм, (3) открытый исходный код и (4) алгоритмы. Данные бывают разных типов и размеров. Они играют центральную роль в машинном интеллекте для обнаружения и прогнозирования закономерностей. Более релевантные данные обычно улучшают прогнозы и обычно позволяют использовать более выразительные модели. Параллельные вычисления необходимы для быстрой обработки данных и обучения модели. Благодаря обмену технологиями и распространению информации разработка с открытым исходным кодом играет решающую роль в обеспечении и ускорении прогресса в области машинного интеллекта. Apache Hadoop и Spark - популярные примеры проектов с открытым исходным кодом. Машинный интеллект все больше и больше основывается на алгоритмах машинного обучения. Более совершенные алгоритмы привели к появлению новых приложений с впечатляющей производительностью.

Сеть знаний

Четыре столпа технологий являются неотъемлемой частью мозга Озло, графа знаний. Он включает в себя все, что наша система знает о мире, и машинное обучение из множества общедоступных и частных источников данных. Граф знаний имеет сущности как узлы - места, люди, общие объекты - и отношения как связи между узлами. Узел - это набор свойств, которые являются фактами или вероятностными метками с учетом свидетельств для исходных данных. В случае объектов фильма свойства - это название, дата выпуска, жанры и рейтинги, а отношения - это ссылки на другие объекты, такие как, например, исполнители, награды и потоковые сервисы.

«Найдите хорошие вьетнамские рестораны рядом с библиотекой в ​​Милпитасе».

Граф знаний позволяет системам, которые мы используем, отвечать на такие вопросы, как «Найдите хорошие вьетнамские рестораны рядом с библиотекой в ​​Милпитасе». Ответ на вопрос состоит из нескольких этапов. Во-первых, алгоритмы обработки естественного языка анализируют предложение и извлекают намерение и другую важную информацию. Например, мы интерпретируем с высокой вероятностью, что в предложении вьетнамский - это кухня, restaurant - тип закусочной, библиотека - это ориентир в близлежащий город Милпитас. Выявленные фасеты и имена используются для извлечения релевантного контента из графа знаний. Список результатов возвращается пользователю с человеческим ответом.

Платформа данных

Граф знаний Озло является продуктом платформы данных, которая использует облачные вычисления и хранилище. Платформа данных отвечает за прием, преобразование и загрузку данных из внешних и внутренних источников в граф знаний. Этап преобразования - это трудоемкий и сложный этап с большим объемом вычислений. Его основные задачи - удалить повторяющиеся сущности для каждого источника, разрешить экземпляры сущностей из нескольких источников, объединить свойства разрешенных сущностей и вычислить семантические представления сущностей.

Дедуппер и резольвер

В задачах дедупликации и разрешения используются четырехугольные деревья и хеширование с учетом местоположения для быстрой индексации сущностей и деревья решений с градиентным усилением для дедупликации и разрешения. Производительность оценивается путем перекрестной проверки:

Фьюзер

Задача слияния принимает на вход разрешенные сущности и объединяет их свойства. Некоторые свойства представляют собой простые факты, а некоторые - субъективные мнения. Эта задача необходима, потому что источники данных часто расходятся во мнениях относительно свойств сущностей. Тем не менее, противоречивые свидетельства должны быть объединены с вероятностным свойством. Поскольку значения свойств постоянно меняются, сложно создать высококачественный обучающий набор для изучения функции слияния. Таким образом, мы прибегли к неконтролируемому подходу, основная цель которого - объединить доказательства в присутствии шума. Он основан на правилах высокого уровня, которые направляют машины факторизации для устранения шума и оценки меток для свойств.

«Найдите поблизости рестораны, где подают фо».

Ozlo полагается на объединенные свойства, которые могут быть типами мест, кухней, блюдами и т. Д., Чтобы ранжировать ответы на вопросы пользователей. Например, чтобы ответить на вопрос «Найти поблизости рестораны, где подают фо», нам нужно найти и оценить объекты, которые являются ресторанами и обслуживают фо. При ранжировании используются вероятности свойств для определения правильного порядка объектов, которые видит пользователь.

Семантическая информация

Вероятности свойств выражают уверенность термоэлемента в том, что объекты обладают этими свойствами. Однако часто бывает сложно охарактеризовать сущности простыми словами из-за большого количества свойств. Ресторан может подавать фо, но это не означает, что это в основном вьетнамский ресторан. Семантическая информация об объектах позволяет их семантические сравнения и задать новый класс вопросов. Кроме того, помимо сущностей, мы также можем сравнивать концепции и объекты, если они имеют семантическую информацию.

"Найдите рестораны, такие как Thaiphoon в Пало-Альто в Сиэтле".

Семантическая информация может быть вычислена отдельной задачей после фьюзера, или может быть достаточно повторно использовать латентные векторы, которые машина факторизации фьюзера уже вычислила. В результате Озло сможет ответить на вопросы «Найдите рестораны, такие как Thaiphoon, в Пало-Альто в Сиэтле» или «Найдите такие рестораны, как Bottomless Mimosas, в Денвере». Это упростит формулировку вопросов, когда мы инстинктивно знаем, что ищем, но можем не знать, как кратко описать словами. Между прочим, три основных объекта для первого вопроса будут: Thai Heaven, Phayathai Cuisine и Thai Siam, а для второго: Great Northern, Rialto Cafe и Altitude Restaurant.

Семантическое сходство можно вычислить между многими типами объектов. Вот несколько примеров:

  • Средиземноморская кухня похожа на кухни греческой, турецкой.
  • Вьетнамская кухня похожа на блюда Bun Cha, Pho, Bun Bo Hue, Bun, Bun Rieu, Banh Xeo, но отличается от итальянской курицы.
  • Закусочная Irish Pub похожа на блюда Irish Whisky, Honey Wine.
  • Жанр Семья похож на жанры «Дети», «Дошкольное учреждение», «Образование», «Домашние животные», но не похож на жанры, связанные с взрослыми и насилием.
  • Жанр Научная фантастика похож на жанры "Чужой" и "Космос", но не похож на жанры, связанные с религией и биографией.

Производство

В производственной среде граф знаний обновляется в среднем ежедневно. Модели повторно обучаются и развертываются при поступлении новых обучающих данных. По мере совершенствования и развития платформы данных срок службы моделей сокращается. Модели дедупликации и резолвера можно автоматически переобучить за считанные минуты, а модели фьюзера сохраняются только на время выполнения этапа преобразования.

Достижения

Машинный интеллект - это не волшебная палочка, которая легко решит любую проблему цифрового помощника. Тем не менее, хотя нам периодически приходится поддерживать методы, позволяющие людям преодолевать проблемное поведение, мы всегда ищем решения, которые раздвигают границы современного состояния. Благодатные области для новых достижений - это точки пересечения столпов технологий. Примером является минимизация функции правдоподобия с помощью стохастического градиентного спуска. Выполняя итерацию уравнений максимально одновременно без блокировок, мы достигаем ускорения на порядки с дополнительной регуляризацией. Другой пример - стирание границы между контролируемым и неконтролируемым машинным обучением, что позволяет разрабатывать новые алгоритмические подходы.

В поисках лучших продуктов и решений имеет смысл принять прогресс и бросить вызов общепринятым представлениям.