Парсер кеша google - помогите модернизировать

Статус
В этой теме нельзя размещать новые ответы.

sherh

Постоялец
Регистрация
12 Июн 2007
Сообщения
129
Реакции
53
Понадобилось вытянуть кучу страниц из кеша гугля. Полез в поиск - нашел скрипт на форуме сапы - админ выкладывал.

Скрипт свое дело делает, но гугль банит очень быстро. Думаю, если его немного модернизировать, чтобы он запросы посылал с задержкой, то банить не должен.
Еще погуглил на эту тему - нашел блог где как раз говорится как такое реализовать:


Как связать первое и второе - не знаю. Помогите пожалуйста. Может есть другие решения?
 
Хорошо бы иметь в арсенале PHP команду, типа wait (подождать). Но, такой команды, на сколько я знаю, нет.
а sleep() или usleep() не нравится? ;) После
PHP:
$cached[]=$page; // Сохраняем адреса скачанных страниц, чтоб не повторяться
добавь строку:
PHP:
sleep(rand(30, 60)); // Вставляем случайную задержку от 30ти до 60ти секунд.
и строку
PHP:
set_time_limit(1800);
замени на:
PHP:
set_time_limit(0);
и будет тебе задержка :)
 
PHP:
array_unique($starturls); // Убираем дубликаты, на всякий случай 
array_unique($cached); // Убираем дубликаты
не будет так работать. надо так.
PHP:
$starturls=array_unique($starturls); // Убираем дубликаты, на всякий случай 
$cached=array_unique($cached); // Убираем дубликаты
 
А еще лучше через прокси,к прим у меня поиск по н сайтам,и что бы не банили я использую прокси
HTML:
$proxy_host = array("127.0.0.1:8080", "127.0.0.1:80", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080");
$sikl = rand(0, 16);
$proxy=$proxy_host[$sikl];
а дальше скачиваю через курл(вставляя значение прокси $proxy) и все дела...
Получается так что он у тебя рандомно берет прокси что не вызывает у гугля подозрения....
 
Скомпоновал, указанное выше получилось:

Запускаю на Денвере, указываю домен, через несколько секунд независимо от домена, какой ни введёшь - появляется надпись не найдено. В чём может быть дело?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху