«Понимание поисковых запросов лучше, чем когда-либо прежде
Если за 15 лет работы над поиском Google я усвоил одну вещь, так это то, что любопытство людей безгранично… blog .Google"



Если есть что-то, что я узнал за 15 лет работы над поиском Google, так это то, что любопытство людей безгранично. Мы видим миллиарды поисковых запросов каждый день, и 15 процентов из них - это запросы, которых мы раньше не видели, поэтому мы создали способы возвращать результаты по запросам, которых мы не могли предвидеть.

Когда такие люди, как вы или я, заходим в Поиск, мы не всегда уверены в том, как лучше всего сформулировать запрос. Мы можем не знать, какие слова использовать или как написать что-то по буквам, потому что часто мы заходим в Поиск, чтобы узнать что-то новое - мы не всегда знаем, с самого начала.

По своей сути поиск - это понимание языка. Наша задача - выяснить, что вы ищете, и найти полезную информацию из Интернета, независимо от того, как вы пишете или комбинируете слова в запросе. Хотя мы продолжали улучшать наши способности понимать язык на протяжении многих лет, иногда мы все еще не совсем понимаем это, особенно со сложными или разговорными запросами. Это одна из причин, по которой люди часто используют «ключевое слово», набирая строки слов, которые, по их мнению, мы поймем, но на самом деле не так, как они обычно задают вопрос.

Благодаря последним достижениям нашей исследовательской группы в области науки о понимании языков, которые стали возможными благодаря машинному обучению, мы значительно улучшаем то, как мы понимаем запросы, что представляет собой самый большой скачок вперед за последние пять лет и один из крупнейших шаг вперед в истории поиска.

Применение моделей BERT для поиска
В прошлом году мы представили и предоставили открытый исходный код основанную на нейронных сетях технику предварительного обучения обработки естественного языка (NLP) под названием Представления двунаправленного кодера от трансформаторов, или, как мы его называем, сокращенно БЕРТ. Эта технология позволяет каждому обучить собственную современную систему ответов на вопросы.

Этот прорыв стал результатом исследования Google трансформеров: моделей, которые обрабатывают слова, относящиеся ко всем другим словам в предложении, а не одно за другим по порядку. Таким образом, модели BERT могут рассматривать полный контекст слова, глядя на слова, стоящие до и после него, что особенно полезно для понимания цели поисковых запросов.

Но это стало возможным не только благодаря усовершенствованию программного обеспечения: нам также требовалось новое оборудование. Некоторые модели, которые мы можем построить с помощью BERT, настолько сложны, что выходят за рамки того, что мы можем делать с использованием традиционного оборудования, поэтому впервые мы используем новейшие облачные TPU, чтобы обслуживать результаты поиска и предоставлять вам больше актуальная информация быстро.

Анализ ваших запросов
Итак, это много технических деталей, но что все это значит для вас? Что ж, применяя модели BERT как к ранжированию, так и к избранным сниппетам в поиске, мы можем намного лучше помогать вам находить полезную информацию. Когда дело доходит до ранжирования результатов, BERT поможет поисковой системе лучше понять каждый десятый поисковый запрос в США на английском языке, и со временем мы перенесем это на большее количество языков и регионов.

В частности, для более длинных диалоговых запросов или поиска, где предлоги, такие как «для» и «для» имеют большое значение для значения, Search сможет понять контекст слов в вашем запросе. Вы можете искать таким образом, который вам кажется естественным.

Чтобы запустить эти улучшения, мы провели большое тестирование, чтобы убедиться, что изменения более полезны. Вот несколько примеров нашего процесса оценки, демонстрирующих способность BERT понять цель вашего поиска.

Вот поисковый запрос: «Путешественнику из Бразилии в США в 2019 году нужна виза». Слово «к» и его связь с другими словами в запросе особенно важны для понимания смысла. Речь идет о путешествии бразильца в США, а не наоборот. Раньше наши алгоритмы не понимали важности этой связи, и мы возвращали результаты о гражданах США, путешествующих в Бразилию. С помощью BERT Search может уловить этот нюанс и знать, что очень распространенное слово «to» действительно имеет здесь большое значение, и мы можем предоставить гораздо более релевантный результат для этого запроса.

Давайте посмотрим на другой вопрос: «много ли работают косметологи». Раньше в наших системах использовался подход сопоставления ключевых слов, сопоставляя термин «автономный» в результате со словом «стоять» в запросе. Но это неправильное использование слова «стоять» в контексте. Наши модели BERT, с другой стороны, понимают, что «стоять» связано с концепцией физических требований, предъявляемых к работе, и демонстрируют более полезную реакцию.

Вот еще несколько примеров, когда BERT помог нам уловить тонкие нюансы языка, которые компьютеры понимают не совсем так, как люди.

  • BERT в поиске: пример аптеки
  • С помощью модели BERT мы можем лучше понять, что «для кого-то» является важной частью этого запроса, тогда как ранее мы упускали из виду смысл с общими результатами о заполнении рецептов.
  • 1
  • 2
  • 3

Улучшение поиска на других языках
Мы также применяем BERT, чтобы сделать поиск лучше для людей во всем мире. Важной характеристикой этих систем является то, что они могут извлекать знания из одного языка и применять их к другим. Таким образом, мы можем взять модели, которые учатся на усовершенствованиях английского языка (языка, на котором существует подавляющее большинство веб-контента), и применить их к другим языкам. Это помогает нам лучше возвращать релевантные результаты на многих языках, на которых предлагается поиск.

Для избранных сниппетов мы используем модель BERT для улучшения избранных сниппетов в двух десятках стран, где доступна эта функция, и наблюдаем значительные улучшения в таких языках, как корейский, хинди и португальский.

Поиск - не решенная проблема
Независимо от того, что вы ищете или на каком языке говорите, мы надеемся, что вы сможете отказаться от использования ключевых слов и поиска. таким образом, который кажется вам естественным. Но время от времени вы все равно будете ставить Google в тупик. Даже с BERT мы не всегда понимаем это правильно. Если вы введете запрос «какой штат находится к югу от Небраски», BERT лучше всего предположит сообщество под названием «Южная Небраска». (Если у вас возникло ощущение, что это не в Канзасе, вы правы.)

Понимание языка остается постоянной проблемой, и это дает нам мотивацию продолжать улучшать поиск. Мы постоянно совершенствуемся и работаем над тем, чтобы найти смысл и наиболее полезную информацию для каждого запроса, который вы отправляете нам.

Панду Наяк

Сотрудник и вице-президент Google по поиску

Опубликовано 25 октября 2019 г.