Запретить автоматизированным инструментам доступ к веб-сайту

Данные на нашем веб-сайте можно легко очистить. Как мы можем определить, просматривает ли человек сайт или инструмент?

Один из способов - вычислить время, в течение которого пользователь остается на странице. Я не знаю, как это реализовать. Может ли кто-нибудь помочь обнаружить и предотвратить сбор данных с моего веб-сайта автоматизированными инструментами?

Я использовал изображение безопасности в разделе входа в систему, но даже тогда человек может войти в систему, а затем использовать автоматизированный инструмент. Когда изображение рекапчи появляется по прошествии определенного периода времени, пользователь может ввести изображение защиты и снова использовать автоматизированный инструмент для продолжения очистки данных.

Я разработал инструмент для очистки другого сайта. Так что я только хочу, чтобы это не случилось с моим сайтом!


person banupriya    schedule 19.08.2010    source источник


Ответы (6)


НЕ делайте этого.

Это Интернет, вы не сможете помешать кому-то очистить данные, если они действительно этого захотят. Я делал это много-много раз раньше и обходил все ограничения, которые они вводили. Фактически наличие ограничения мотивирует меня и дальше пытаться получить данные.

Чем больше вы ограничиваете свою систему, тем хуже для легитимных пользователей вы сделаете это. Просто плохая идея.

person NullUserException    schedule 19.08.2010

Это Интернет. Вы должны исходить из того, что все, что вы публикуете, может быть прочитано человеком или машиной. Даже если вы можете предотвратить это сегодня, кто-то придумает, как это обойти завтра. CAPTCHA не работает в течение некоторого времени, и рано или поздно, альтернативы тоже.

Однако здесь есть некоторые идеи на данный момент.

И вот еще несколько.

и для моей любимой. На одном умном сайте, с которым я столкнулся, есть хороший. У него есть такой вопрос, как "На нашей странице" о нас ", как называется улица, где находится наша служба поддержки?" или что-то вроде того. Человек должен найти страницу «О нас» (ссылка не говорит «о нас», но говорит нечто подобное, что человек мог бы понять), а затем найти адрес офиса поддержки (отличный от основного корпоративного office и ряд других, перечисленных на странице) вам предстоит просмотреть несколько совпадений. Современные компьютерные технологии не смогут понять это больше, чем они могут выяснить истинное распознавание речи или познание.

поиск Google по запросу "альтернативы Captcha" встречается довольно часто.

person David    schedule 19.08.2010
comment
да, но вы не можете оставить свой веб-сайт без каких-либо функций безопасности только потому, что в один прекрасный день каждая функция безопасности может быть взломана. - person Ankit Jaiswal; 19.08.2010
comment
Согласен, но правило безопасности №1 - предполагать, что ваш сайт уязвим, и внедрять глубокую защиту. И я должен задаться вопросом, как часто имеет значение, читает ли это сайт человек или нет? Это должно быть ОДНОЙ из проблем, но я еще не сталкивался с ситуацией, когда это могло бы помешать сделке. Защитите сайт всем, что есть в вашем распоряжении, и вопрос о том, что человек против бота не играет роли. - person David; 19.08.2010
comment
да, я думаю, что здесь цель должна заключаться в том, чтобы затруднить соскабливание, а не в том, чтобы определить, является ли пользователь машиной или человеком ... - person Ankit Jaiswal; 19.08.2010
comment
@AnkitJaiswal ... но вы не можете оставить свой веб-сайт без каких-либо функций безопасности только потому, что каждая функция безопасности может быть взломана в один прекрасный день. Скребки не являются проблемой безопасности (в противном случае аутентификация была бы решением ). ... цель должна заключаться в том, чтобы затруднить очистку, а не определять, является ли пользователь машиной или человеком ... Это может продолжаться только до тех пор, пока не пострадают и посетители-люди. С этого момента автоматизация становится желанной альтернативой для постоянных посетителей. - person user4157124; 02.07.2018

Это невозможно сделать без риска ложных срабатываний (и раздражения пользователей).

Как мы можем определить, просматривает ли человек сайт или инструмент?

Ты не можешь. Как бы вы справились с инструментами, анализирующими страницу для человека, такими как средства чтения с экрана и инструменты специальных возможностей?

Например, одним из способов является вычисление времени, в течение которого пользователь остается на странице, по которому мы можем определить, задействовано ли вмешательство человека. Я не знаю, как это реализовать, но просто думаю об этом методе. Может ли кто-нибудь помочь, как обнаружить и предотвратить сбор данных с моего веб-сайта автоматизированными инструментами?

Вы не обнаружите автоматических инструментов, только необычное поведение. И прежде чем вы сможете определить необычное поведение, вам нужно найти то, что обычно. Люди просматривают страницы в разном порядке, вкладки браузера позволяют им выполнять параллельные задачи и т. Д.

person sisve    schedule 19.08.2010
comment
Тем не менее, у таких сайтов, как Google, есть логика отслеживания, чтобы определить, участвует ли человеческое вмешательство в использовании сайта! Я хочу знать эту логику только для того, чтобы мы могли предотвратить эти инструменты, по крайней мере, до некоторой степени! - person banupriya; 20.08.2010

Думаю, единственное хорошее решение - ограничить скорость доступа к данным. Это может не полностью предотвратить очистку, но, по крайней мере, вы можете ограничить скорость, с которой будут работать автоматизированные инструменты очистки, надеюсь, ниже уровня, который препятствует очистке данных.

person teukkam    schedule 19.08.2010

Замечу, что есть желание, значит, способ есть.

При этом я подумал о том, о чем вы спрашивали ранее, и вот несколько простых вещей, которые я придумал:

  1. простыми наивными проверками могут быть фильтрация и проверка пользовательского агента. Вы можете найти список общих пользовательских агентов сканера здесь: http://www.useragentstring.com/pages/Crawlerlist/

  2. вы всегда можете отображать свои данные во флэш-памяти, хотя я не рекомендую это делать.

  3. использовать капчу

Кроме этого, я не совсем уверен, можно ли еще что-нибудь сделать, но мне также было бы интересно увидеть ответы.

РЕДАКТИРОВАТЬ:

Google делает кое-что интересное, когда, если вы ищете SSN, после 50-й страницы или около того, они будут вводить капчу. Возникает вопрос, можете ли вы разумно рассчитать время, которое пользователь тратит на вашу страницу, или, если вы хотите ввести в уравнение разбиение на страницы, время, которое пользователь проводит на одной странице.

Используя информацию, которую мы ранее предполагали, можно установить ограничение по времени до отправки другого HTTP-запроса. В этот момент может быть полезно «случайным образом» сгенерировать капчу. Я имею в виду, что, возможно, один HTTP-запрос пройдет нормально, но для следующего потребуется капча. Вы можете переключать их по своему усмотрению.

person Mahmoud Abdelkader    schedule 19.08.2010

Сканеры крадут данные с вашего сайта, анализируя URL-адреса и читая исходный код вашей страницы. Следующие шаги могут быть предприняты, по крайней мере, чтобы сделать очистку немного трудной, если не невозможной.

Запросы Ajax затрудняют анализ данных и требуют дополнительных усилий для анализа URL-адресов.

Используйте файлы cookie даже для обычных страниц, не требующих аутентификации, создавайте файлы cookie, когда пользователь посещает домашнюю страницу, а затем они необходимы для всех внутренних страниц. Это немного затрудняет очистку.

Отобразите зашифрованный код на веб-сайте, а затем расшифруйте его во время загрузки с помощью кода javascript. Я видел это на нескольких сайтах.

person Ankit Jaiswal    schedule 19.08.2010
comment
Как создание файлов cookie предотвращает использование автоматизированных инструментов? Будет ли создан файл cookie, если на эту страницу войдет инструмент или человек? Предоставьте код JavaScript для отображения зашифрованного и дешифрованного кода во время загрузки. На моем сайте я использую шифрование base64 для шифрования пароля. Должен ли я также зашифровать строки запроса? - person banupriya; 19.08.2010
comment
Я не сказал, что создание файлов cookie предотвращает использование автоматизированных инструментов, это просто затрудняет создание инструментов для удаления и требует дополнительных усилий. - person Ankit Jaiswal; 19.08.2010
comment
См. Здесь для зашифрованного HTML. iwebtool.com/html_encrypter аналогичную вещь можно реализовать и на вашем сайте. - person Ankit Jaiswal; 19.08.2010