Этот фактор — возможность учиться на (почти) неограниченных данных.

Метки майнинга в «немаркированных» данных

ИИ (заставляющий машину вести себя разумно) или, в частности, машинное обучение работают лучше, когда доступно больше обучающих данных. Кроме того, он также работает лучше, когда данные более точны. Обычно модель изучается на основе примеров, помеченных людьми (обучающий набор данных), что часто обходится дорого. Однако в некоторых случаях модель ML может добывать помеченные примеры самостоятельно. Если модель можно изучить из «немаркированных» данных (то есть данных, которые не требуют, чтобы люди сначала маркировали их), то такая модель может стать впечатляюще интеллектуальной при меньших затратах.

Примеры

Рассмотрим пару примеров:

  1. Алгоритм PageRank: лучшие сайты «маркируются» большим количеством внешних ссылок. Таким образом, базовый поисковый робот может собирать такие «метки».
  2. Платформа видеохостинга и рекомендуемые видео: когда пользователь просматривает видео на платформе видеохостинга, пользователь «маркирует» релевантные видео. Таким образом, на такой платформе может быть множество ярлыков для рекомендации следующих видео.
  3. Проверка грамматики на основе искусственного интеллекта: многие люди создали миллиарды примеров того, как может выглядеть предложение на данном языке.
  4. Игрок в шахматы или го на основе искусственного интеллекта: лучшие игроки этих игр «помечали» лучшие ходы в миллиардах ситуаций.

Во всех этих примерах. Люди естественным образом «пометили» данные:

  • путем добавления ссылок между веб-сайтами;
  • выбирая, какое видео смотреть дальше;
  • написав текст;
  • играя в игру.

Эти «бесплатные ярлыки» — скрытые сокровища. Было бы разумно использовать их.

Сравнение с классическим подходом на основе машинного обучения

Сейчас эти примеры кажутся тривиальными. Зачем это все обсуждать? Я считаю, что важность таких скрытых бесплатных ярлыков недооценивается. Классический подход к машинному обучению заключается в том, чтобы вручную создать некоторый обучающий набор данных и обучить модель с помощью современного алгоритма машинного обучения на основе набора данных. С другой стороны, можно научить модель добывать такие ярлыки и получать доступ к знаниям, скрытым в самой системе (например, в сети). Чтобы добывать такие скрытые знания, нужно заглянуть в «суть» данной системы.

Давайте вернемся к примеру с Page Rank и немного подумаем, как должны выглядеть лучшие веб-сайты:

  • Много посещений пользователями и много времени, проведенного на этих сайтах. Это справедливо, но поисковая система не может отслеживать активность пользователей для измерения этих показателей.
  • Точно так же, как хорошая исследовательская статья — это статья, на которую ссылаются многие другие статьи, хороший веб-сайт — это тот, на который есть много внешних ссылок с других веб-сайтов. К счастью для поисковой системы, эти вещи можно измерить с помощью простого поискового робота. Мы можем пойти немного дальше: цитирование журнала Science и цитирование неизвестного нового небольшого журнала различаются, как и «цитирование» веб-сайтов.

Разве это не просто обучение без учителя?

В основном, да. Я хочу сказать, что иногда мы упускаем возможность преобразовать проблему обучения с учителем в задачу без учителя, а вместо этого собираем обучающий набор данных и используем алгоритм машинного обучения, чтобы понять это. Как и в примере с PageRank, можно собрать набор данных о веб-сайтах, оценить их качество, выделить некоторые функции, которые могут повлиять на рейтинг, и обучить модель машинного обучения, которая будет обобщать, как эти функции влияют на рейтинг.

Кажется простым, не так ли? Однако для обучения модели только для одного языка могут потребоваться как минимум десятки тысяч примеров.

Краткое содержание

Часто система или ее пользователи маркируют это. Выяснить, как добывать эти ярлыки, может быть очень сложно. Но я почти уверен, что поиск этих скрытых сокровищ стоит затраченных усилий, потому что можно раздвинуть границы того, что в настоящее время возможно в области ИИ.