не удалось очистить https://angel.co/

Я пытаюсь использовать несколько страниц этого сайта.

Я пробовал различные ответы на переполнение стека относительно этого веб-сайта, и ни один из них не работал. Все страницы с веб-сайта возвращают только 403. Я пытался изменить ip и изменить юзерагенты.

headers = {
            "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
            "accept-language": "en-US,en;q=0.9,ru-RU;q=0.8,ru;q=0.7",
            "cache-control": "no-cache",
            "pragma": "no-cache",
            "upgrade-insecure-requests": "1"
        }

yield scrapy.Request('https://angel.co/login',callback=self.parse, method='GET',headers=headers)

Как я могу заставить своего паука успешно парсить этот сайт? Я проверил, что этот веб-сайт работает хорошо, даже если javascript отключен, но все еще не может очистить :(


person Lucifer    schedule 26.08.2019    source источник
comment
Недавно я помог изучить средства защиты Cloudfare на другом сайте, и оказалось, что зависят от метаданных TLS, отправленных клиентом. Вы можете получить некоторые идеи по отладке, прочитав комментарии, а также ответ там.   -  person Nickolay    schedule 27.08.2019
comment
конечно, выглядит интересно, спасибо, что поделились   -  person Lucifer    schedule 27.08.2019


Ответы (1)


Этот веб-сайт использует службу защиты от ddos-атак Cloudflare.

Попробуйте использовать некоторые заголовки, такие как user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36, в своих заголовках.

Вы должны убедить сервер, что вы браузер, а не парсер.

Некоторым средствам защиты от DDoS-атак в Cloudflare требуется запуск javascript. а некоторым другим нужна капча, на которую машина не может ответить

Во-первых, запишите свой ответ в файл и посмотрите, что это за защита. Во-вторых, попытайтесь справиться с этим из-за проблемы

person Hameda169    schedule 26.08.2019
comment
Ты прав. Не догадался проверить ответ. Гениальный облачный тариф кидает капчу - person Lucifer; 27.08.2019
comment
Итак, вы теперь арестованы cloudflare, как и я :)) - person Hameda169; 27.08.2019
comment
да :(. пробую модуль cfscrape и все равно без надежды :( - person Lucifer; 27.08.2019
comment
Я думаю, что cfscrape работает для защиты js. Защита от капчи не имеет выхода :) - person Hameda169; 27.08.2019
comment
Вы уверены насчет селена? - person Hameda169; 27.08.2019
comment
да, Cloudfare не вводил в меня капчу при использовании этого веб-сайта в браузере. я даже пробовал с отключенным js. но селен очень медленный - person Lucifer; 27.08.2019
comment
Поцарапайте это, Cloudfare просто бросила мне капчу в браузере :( - person Lucifer; 27.08.2019
comment
Это потому, что ваш IP-адрес. Вы используете VPN или что-то в этом роде? - person Hameda169; 29.08.2019