Я очарован системой CAPTCHA, используемой на SO... Я хотел бы узнать больше о множество факторов, благодаря которым reCAPTCHA работает. Разработчики, по понятным причинам, учитывая возможность злоупотреблений, хранят молчание о точной внутренней работе своей системы... Но поведение хорошо задокументировано, и поэтому, возможно, мое любопытство все еще может быть удовлетворено:
Если бы мне нужно было разработать клон reCAPTCHA, как бы я это сделал?
reCAPTCHA позволяет:
- опечатка
- в месте, где люди делают их. Это говорит мне о том, что вам нужно иметь исторические данные об ошибках, а затем создавать алгоритм на их основе.
Обнаружение опечаток требует широкого использования баз данных: одна для слов из оцифрованных книг, а другая для слов, которые известны.
Известные технические детали
- две базы данных: одна для известных слов, а другая для неизвестных слов
- последующая база данных для сочетания слов
Неизвестные технические детали
- Как можно разделить слова на лету так, чтобы вы увидели комбинацию слов из разных баз данных? Это касается обработки сигналов.
- Как данные из двух баз данных могут быть предоставлены пользователю?
- Какова начальная форма данных в двух отдельных базах данных? PDF?
- Какова последующая форма данных при объединении данных из двух баз данных? PDF?
- Как можно объединить данные из двух pdf-файлов в один?
- Как вы можете эффективно вращать изображения?
- Какие алгоритмы используются для отделения изображений от книги?
похожие темы
- обработка сигналов
- исчисление: ряды, такие как Фурье и Лаплас, для алгоритмов обнаружения слов.
- теория вероятностей: иметь коэффициент компьютер-человек, который передается только в том случае, если он, например, с доверительным интервалом 95
- Возможно, теория чисел: нам нужно эффективно хранить и сравнивать данные.