Тайна рекомендательных систем

Самая непопулярная технология в Интернете

В мир рекомендательных систем я попал случайно. Я стремился решить проблему с помощью технологий. Проблема? Безудержная и, казалось бы, неотъемлемая неудача, когда люди преследуют великие цели своей жизни. Цель состояла в том, чтобы решить эту проблему, используя возможности больших данных. Но как? После сотен часов исследований имело смысл только одно решение — рекомендательные системы.

Так что же такое рекомендательная система? Только одна из самых популярных технологий в Интернете. Просматриваете ли вы продукты на Amazon, слушаете ли вы музыку на Spotify или смотрите на Netflix, вам всегда говорят, что еще вы должны купить, послушать или посмотреть в зависимости от того, что вы потребили. Однако в этих рекомендациях содержится гораздо больше, чем кажется на первый взгляд. Не только то, что вы купили, прослушали или посмотрели, определяет то, что рекомендуется. На самом деле, это только вершина айсберга.

Рекомендательные системы ищут пользователей, которые наиболее похожи на вас на основе ваших моделей покупок и потребления, также известных как ваши ближайшие соседи, и рекомендуют вам смотреть, слушать или покупать то, что они сделали. Так что технически вы объединены в кластер пользователей, и все вы добавляете в базу знаний, из которой исходят эти рекомендации.

При определении сходства между двумя пользователями используется ряд взвешенных показателей сходства. Показатель корреляции Пирсона используется для сравнения профиля, шаблонов и поведения активного пользователя с существующими пользователями службы. Это делается путем сравнения значений атрибутов одного пользователя с другим как по отдельности, так и в целом.

На английском языке это означает, что во внимание принимается больше, чем просто то, что вы потребляете исторически. В случае с Netflix учитываются другие переменные, такие как жанры, поджанры, актеры, частота, шаблоны просмотра, например, в какое время дня вы смотрите определенные типы контента или на каких устройствах вы их просматриваете и т. д. Ваш «профиль» состоит из десятков различных значений атрибутов, что позволяет рекомендательным системам точно находить ваших ближайших соседей. Этот процесс повторяется атрибут за атрибутом, пока не будут найдены наиболее похожие пользователи.

«Мера Пирсона» — это коэффициент корреляции между двумя переменными, определяемый как ковариация двух переменных, деленная на их стандартное отклонение. Это измерение проводится на основе атрибута за атрибутом (например, жанр-›жанр, тип контента-›тип контента) до тех пор, пока не будет определена мера сходства как для 1) каждого значения атрибута, так и для 2) общей меры сходства между пользователями. .

Таким образом, в основном он смотрит, какие пользователи смотрят тот же жанр заголовков, что и вы, один за другим, но делает то же самое со всеми другими переменными. Поэтому, если вы смотрите драмы, он ищет других пользователей, которые смотрят драмы. Если вы смотрите драмы с тяжелыми действиями, в которых главную роль играет Николас Кейдж, теперь у них есть три атрибута, которые нужно измерять один за другим. Если вы смотрите стендап-комедии, это четыре, если вы смотрите стендап-комедии Дэйва Шапеля, это пять. Он измеряет эти атрибуты за атрибутами, чтобы найти ближайшего соседа, но также принимает во внимание все атрибуты.

Может быть, есть кто-то еще, кто смотрит тонны боевиков Николаса Кейджа, как и вы, — так что вы добавлены в этот кластер. Но этот же человек не смотрит все стендап-комедии Дэйва Шапеля, поэтому он определяет, что у вас меньше общего. В идеале, он ищет пользователей, которые смотрят боевики Николаса Кейджа, а также специальные выпуски Дэйва Шапеля — или как можно ближе к этому веселому противоречию. Другой мерой подобия является мера евклидова расстояния, которая использует средневзвешенное значение результатов измерений Евклида и Пирсона для определения наиболее точной меры сходства между двумя значениями и, в конечном счете, между пользователями.

В зависимости от характера атрибута или шаблона каждая мера получает относительный вес. Таким образом, в нашем примере жанр боевика получает один вес, а Николас Кейдж, вероятно, получает другой, менее значимый вес. То же самое касается стендап-комедии, которая, если вы будете смотреть больше, чем Дэйв Шапель, получит больший вес, чем атрибут Дейва Шапеля. Как вы видите, Netflix использует огромное количество данных для выдачи рекомендаций. Он основан на сотнях, если не сотнях тысяч атрибутов и их соответствующих весов, которые постоянно меняются, поэтому меняются и получаемые вами рекомендации.

Эта сложная технология может использоваться не только для рекомендации фильмов, телепередач, песен или продуктов в Интернете. Они также используются для рекомендации друзей на Facebook или контактов в LinkedIn. Google даже использует их, чтобы предсказывать и рекомендовать то, что вы можете или должны искать. Однако чаще всего рекомендательные системы используются для показа рекламы, которую вы видите при просмотре веб-страниц. Заметили закономерность? Рекомендательные системы используются, чтобы заставить вас покупать больше продуктов и услуг и потреблять больше фильмов, телешоу, песен и контента.

Рекомендательные системы не используются для того, чтобы на самом деле помочь вам принимать значимые решения в вашей жизни. Следующий уровень рекомендательных систем предполагает использование этой технологии, чтобы помочь вам, а не онлайн-бизнесу, принимать более обоснованные решения в своей жизни, которые имеют больше смысла и не связаны с потреблением, а скорее с созданием и построением — назовем это User Intelligence.

Вместо того, чтобы компании использовали все онлайн-данные о вас, чтобы обслуживать себя с помощью бизнес-аналитики, почему бы вам не получить те же возможности, чтобы помочь себе полностью раскрыть свой потенциал? Мы обсудим некоторые из этих предложенных реализаций во второй части моей серии статей о рекомендательных системах.