Как мне разработать систему, подобную reCAPTCHA?

Я очарован системой CAPTCHA, используемой на SO... Я хотел бы узнать больше о множество факторов, благодаря которым reCAPTCHA работает. Разработчики, по понятным причинам, учитывая возможность злоупотреблений, хранят молчание о точной внутренней работе своей системы... Но поведение хорошо задокументировано, и поэтому, возможно, мое любопытство все еще может быть удовлетворено:

Если бы мне нужно было разработать клон reCAPTCHA, как бы я это сделал?


reCAPTCHA позволяет:

  1. опечатка
  2. в месте, где люди делают их. Это говорит мне о том, что вам нужно иметь исторические данные об ошибках, а затем создавать алгоритм на их основе.

Обнаружение опечаток требует широкого использования баз данных: одна для слов из оцифрованных книг, а другая для слов, которые известны.

Известные технические детали

  1. две базы данных: одна для известных слов, а другая для неизвестных слов
  2. последующая база данных для сочетания слов

Неизвестные технические детали

  1. Как можно разделить слова на лету так, чтобы вы увидели комбинацию слов из разных баз данных? Это касается обработки сигналов.
  2. Как данные из двух баз данных могут быть предоставлены пользователю?
  3. Какова начальная форма данных в двух отдельных базах данных? PDF?
  4. Какова последующая форма данных при объединении данных из двух баз данных? PDF?
  5. Как можно объединить данные из двух pdf-файлов в один?
  6. Как вы можете эффективно вращать изображения?
  7. Какие алгоритмы используются для отделения изображений от книги?

похожие темы

  1. обработка сигналов
  2. исчисление: ряды, такие как Фурье и Лаплас, для алгоритмов обнаружения слов.
  3. теория вероятностей: иметь коэффициент компьютер-человек, который передается только в том случае, если он, например, с доверительным интервалом 95
  4. Возможно, теория чисел: нам нужно эффективно хранить и сравнивать данные.

person Community    schedule 02.06.2009    source источник
comment
см. этот вопрос: stackoverflow.com/questions/ 8472/   -  person z -    schedule 03.06.2009
comment
@yx: пост не отвечает на мой вопрос. Я хочу знать, сколько ошибок допускает капча и как она определяет, какая буква правильная, а какая нет.   -  person Léo Léopold Hertz 준영    schedule 03.06.2009
comment
Recaptcha работает, извлекая изображения из двух слов из отсканированных книг, где программа распознавания текста по умолчанию не смогла установить точный текст. Одно из показанных слов известно системе, а другое известно только с низкой степенью достоверности (возможно, даже с 0). Вы должны ввести известное слово почти точно, а менее известное слово — в пределах некоторого вычисленного расстояния от его предполагаемого значения. Затем ваш ввод используется, чтобы помочь установить значение неизвестного слова, чтобы оно могло в конечном итоге перейти в категорию «известных».   -  person Joel Coehoorn    schedule 03.06.2009
comment
Таким образом, в дополнение к альтруистическому выбору (помощь в оцифровке старых книг), рекапча также считается очень безопасной, потому что все, что она показывает вам, уже прошло сложную и дорогую систему оптического распознавания символов.   -  person Joel Coehoorn    schedule 03.06.2009
comment
Недостатком является то, что иногда вы можете увидеть очень странные капчи. Например, вы можете увидеть половину слова, написанного через дефис, числовое значение, например сумму в долларах, или часть нумерованного списка, или даже полную статику.   -  person Joel Coehoorn    schedule 03.06.2009
comment
@Пожалуйста, откройте вопрос еще раз. -- Я интересуюсь математикой и структурами данных, а не общими ответами.   -  person Léo Léopold Hertz 준영    schedule 03.06.2009
comment
Вы не получите математику - грубые детали по необходимости не разглашаются. Тем не менее, я мог бы рассказать вам, как я бы собрал что-то подобное, и это намного проще, чем то, что вы предлагаете.   -  person Joel Coehoorn    schedule 03.06.2009
comment
@Masi: я отредактировал это в надежде, что это можно превратить во что-то ответственное. Я понимаю ваше любопытство, но спрашивать подробности о конкретной системе на общедоступном сайте, когда разработчики даже не размещают эти подробности на своем сайте, — значит разочаровываться.   -  person Shog9    schedule 04.06.2009
comment
@Shog9: Да, трудно получить хорошие ответы на сложные темы. Тем не менее, ветка — это долгосрочный проект, который я стремлюсь решить. Я дам более точную информацию, например, об алгоритмах, как только я их получу.   -  person Léo Léopold Hertz 준영    schedule 06.06.2009


Ответы (1)


рекаптча

person Ólafur Waage    schedule 02.06.2009
comment
Я читаю страницы. Однако это не отвечает на мой вопрос. Он не говорит, как на самом деле работает Captcha. Сколько опечаток допускает Catpcha? Если капча не уверена в правильном слове, как она решает, правильное письмо пользователя или нет. -- В вашей ссылке упоминается, что компьютеры не могут прочитать эти слова. =› ЕСЛИ компьютер не может прочитать слова, как они узнают, дает ли пользователь правильный ответ? - person Léo Léopold Hertz 준영; 03.06.2009
comment
Он находится на их вики-странице в FAQ: wiki.recaptcha.net/index.php/ - person Ólafur Waage; 03.06.2009
comment
@Waage: кажется, что они скрывают API: он настраивается динамически на основе многих факторов. - person Léo Léopold Hertz 준영; 03.06.2009