У меня есть данные, которые мне нужно изменить, используя первую запись определенного поиска Google. Этот поиск должен быть повторен примерно 300 000 раз (каждая строка) с различными ключевыми словами.
Я написал bash-скрипт для этого, используя wget. Однако примерно после 30 (синхронных) запросов мои запросы, похоже, блокируются.
Подключение к www.google.com (www.google.com)|74.125.24.103|:80... подключено. HTTP-запрос отправлен, ожидается ответ... 404 Not Found
Ошибка 404 не найдено.
Я использую этот фрагмент:
wget -qO- ‐‐limit-rate=20k --user-agent='Mozilla/5.0 (X11; Linux i686; rv:5.0) Gecko/20100101 Firefox/5.0' "http://www.google.de/search?q=wikipedia%20$encodedString"
Я зависим от него, чтобы работать, поэтому я надеюсь, что у кого-то есть опыт. Это не регулярная работа, и ее не нужно делать быстро — было бы даже приемлемо, если бы 300 000 запросов заняли больше недели.