Резюме

hCaptcha использует сложные модели машинного обучения, чтобы определить, являются ли ваши посетители людьми и верны ли ответы, которые они дают.

Каждый правильный ответ посетителя, повышающий уверенность в нашей оценке правильного ответа, компенсируется в размере, определяемом системой ставок в реальном времени для каждого типа простых задач, предлагаемых службой.

Приблизительная формула:
Конечная награда = «Полезные» ответы [1]
* награда за задачу * скорость выполнения

[1] Правильные ответы людей, правильно ответивших на большинство полученных ими вопросов.

Фон

hCaptcha создает совершенно новый поток доходов для веб-сайтов, вознаграждая их, когда их пользователи решают hCaptcha. Каждая hCaptcha - это простая задача, которая предоставляет человеческий труд компаниям, создающим наборы данных для машинного обучения.

Полная история

Работа службы hCaptcha представляет собой интересную математическую задачу.

Наши системы должны сочетать несколько ответов на один и тот же набор вопросов от разных людей с небольшим процентом известных ответов («основная истина»), чтобы определить «вероятный правильный ответ» с высокой точностью.

Рассмотрим этот сценарий:

Посетитель 1 отвечает на все вопросы так же, как и Посетитель 2, и оба отвечают на вопрос 1 так же, как и основные данные. Теперь мы начинаем укреплять нашу уверенность в нескольких свойствах как посетителей, так и вопросов с неизвестными ответами:

  1. У них немного больше шансов быть людьми, поскольку они правильно ответили на основной вопрос.
  2. Они, скорее всего, будут одними и теми же (человек или бот), поскольку они согласны в ответах на неизвестные вопросы.
  3. Ответы на вопросы 2 и 3 с несколько большей вероятностью будут B и C, поскольку оба они сказали одно и то же и согласились с основной истиной.

Наша задача - вычислить «вероятный правильный ответ» на каждый вопрос, который задают клиенты, используя наименьшее количество повторений на вопрос, чтобы получить уверенность в этом ответе.

Наша цель - иметь возможность использовать ответы посетителей с точностью менее 100%, что повышает эффективность системы. Это увеличивает нашу работоспособность и, следовательно, вознаграждение, которое мы можем дать каждому веб-сайту за одинаковый объем трафика.

Базовое сравнение: платформы Microwork

Платформы Microwork обычно предлагают возможность устанавливать требования для определенного минимального уровня точности рабочего и предшествующего количества работы. Это сделано для того, чтобы ограничить количество рабочих, выполняющих задачу, теми, кто, вероятно, будет правильным.

Обзор этих сайтов показывает, что многие вакансии принимают только ответы от сотрудников с точностью не менее 95% и 50–100 предыдущих задач выполненных.

У hCaptcha нет такой роскоши. Мы должны задавать вопросы ботам, злоумышленникам и, что наиболее важно, пользователям, о которых у нас нет предыстории.

Мы должны быть максимально точными в своем суждении, чтобы не допустить ботов, и максимально эффективными в том, сколько раз мы задаем вопросы, чтобы максимизировать прибыль сайта и пропускную способность системы.

Нам также необходимо предотвратить сговор и другие автоматические атаки, заставляющие наши системы принимать неправильный ответ только потому, что несколько человек говорят, что это правда.

Сделать это без большого количества предварительных ответов от одного и того же посетителя также сложно. Фактически, мы можем получить только 3 или 9 ответов от конкретного посетителя.

Это сложная задача в прикладной теории вероятностей, но мы добились существенного прогресса.

Наши модели уверенности уже достаточно хороши и постоянно совершенствуются по мере поступления новых данных.

Это позволяет нам оценивать ответы пользователей, которые не на 100% или на 95% правильны. Даже те пользователи, которые правильны только 90% или чуть меньше, по-прежнему могут быть полезны в наших моделях.

И мы можем сделать это с помощью всего нескольких ответов от них! Намного более эффективно, чем требовать 95% точности для 50–100 ответов.

Это важно, потому что мы заботимся о конфиденциальности посетителей.

Мы продаем работу, а не рекламу, поэтому нам не нужно вечно идентифицировать и отслеживать посетителей на сайтах, устройствах, в браузерах и т. Д., Чтобы делиться этой информацией с рекламодателями, которым нужны демографические данные пользователей.

Гость из Индонезии так же ценен, как и гость из Германии, если он может ответить на простой вопрос с такой же точностью.

Наши модели также могут обнаруживать плохое поведение с очень небольшим количеством исторических данных. Таким образом, мы предпочитаем сохранять минимальный объем информации о посетителях, необходимый для работы системы, в то же время давая им хороший опыт, то есть не перепрашивать слишком часто, если мы думаем, что они, вероятно, не злонамеренные люди.

Избегайте плохих актеров

Несмотря на указанные выше ограничения, мы не хотим компенсировать злоумышленникам или людям, пытающимся обмануть систему.

Учтите следующее:

Оба посетителя в Сценарии 1 должны получить вознаграждение: их ответы добавили уверенности результатам, когда мы провели заключительные вычисления.

Если посетитель прав только на 50%, как в Сценарии 2, он вообще не обеспечивает никакой повышенной уверенности (т. Е. Ценности): их ответы не лучше, чем случайный шанс.

Предоставление им награды уменьшит общий пул, доступный для хороших актеров, поэтому наш показатель вознаграждения - «Полезные человеческие ответы»; ответы, определенные как от ботов, не вознаграждаются. Ответы злонамеренных или неумелых людей также не представляют ценности для системы и равным образом равны нулю.

Заполняемость

Наконец, мы должны учитывать уникальное свойство системы hCaptcha: наши пользователи зависят от нее, чтобы не допустить злоумышленников!

Мы не можем отключить его, когда у нас заканчиваются компенсированные задачи или когда сайт отправляет нам большой объем плохого трафика.

Точно так же нам нужно использовать часть текущей работы для обеспечения точности и калибровки наших систем: если бы мы никогда не задавали вопросы, на которые мы уже знаем ответ, мы не смогли бы достичь такой же уверенности. Это означает, что каждый квартал мы корректируем вознаграждение за этот период в зависимости от процента задач, выполненных платными клиентами, по сравнению с калибровкой системы.

Рекламные сети используют термин «заполняемость» для обозначения процента доступных рекламных мест, заполненных платежеспособными клиентами. В нашем случае это относится к проценту доступных «рабочих мест», используемых для вознагражденной работы.

Вывод средств против расходов на услуги

С ростом популярности машинного обучения мы видим, что многие издатели проявляют интерес к применению своих вознаграждений непосредственно в сервисах аннотаций. Мы планируем упростить эту задачу в ближайшие месяцы.

Для издателей, которые хотят просто обменять свои вознаграждения на доллары США, мы работаем ежеквартально. Этот график определяется основными ритмами бизнеса. Поскольку мы работаем с крупными корпоративными клиентами, платежные циклы редко бывают короткими. Согласование выплат с дебиторской задолженностью снижает бизнес-риски и делает нашу операционную модель безопасной и устойчивой, что в конечном итоге приносит пользу всем.

Будущее

На данный момент объем запрошенных работ превышает предложение, поэтому у нас есть 100% -ный уровень заполнения, помимо задач по калибровке системы. Временные дисбалансы спроса и предложения - обычное явление на двусторонних рынках, поэтому мы ожидаем, что в будущем он может снизиться: например, большинство рекламных сетей обещают заполняемость в 25–50%.

Однако по мере того, как наши модели улучшаются, потенциал дохода каждого сайта возрастает: это связано с тем, что получение большей уверенности от каждого посетителя и каждого ответа эффективно увеличивает доступные рабочие места для данного сайта.

Мы также регулярно вводим новые виды работ, чтобы удовлетворить потребности клиентов, и постоянно работаем над тем, чтобы сделать наши продукты более полезными и своевременными для клиентов, что также должно увеличить доходы издателей.

Спасибо

Наконец, мы хотели бы поблагодарить вас за поддержку на этом пути.

Мы прилагаем все усилия, чтобы создать новый поток доходов, который не требует продажи личных данных посетителей как продукта. Заставить этот сервис работать как для пользователей, так и для клиентов - увлекательная, но непростая задача, и ваше терпение и поддержка имеют большое значение.

Также приветствуются ваши комментарии, вопросы и предложения: напишите нам в любое время по адресу [email protected].

- Эли, Алекс и вся команда hCaptcha