Парсер кеша google - помогите модернизировать

sherh · 18 Апр 2009

Понадобилось вытянуть кучу страниц из кеша гугля. Полез в поиск - нашел скрипт на форуме сапы - админ выкладывал.

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Скрипт свое дело делает, но гугль банит очень быстро. Думаю, если его немного модернизировать, чтобы он запросы посылал с задержкой, то банить не должен.
Еще погуглил на эту тему - нашел блог

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

где как раз говорится как такое реализовать:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Как связать первое и второе - не знаю. Помогите пожалуйста. Может есть другие решения?

-=Xardas=- · 18 Апр 2009

Хорошо бы иметь в арсенале PHP команду, типа wait (подождать). Но, такой команды, на сколько я знаю, нет.

а sleep() или usleep() не нравится?

После

PHP:

$cached[]=$page; // Сохраняем адреса скачанных страниц, чтоб не повторяться

добавь строку:

PHP:

sleep(rand(30, 60)); // Вставляем случайную задержку от 30ти до 60ти секунд.

и строку

PHP:

set_time_limit(1800);

замени на:

PHP:

set_time_limit(0);

и будет тебе задержка

Liver · 18 Апр 2009

PHP:

array_unique($starturls); // Убираем дубликаты, на всякий случай 
array_unique($cached); // Убираем дубликаты

не будет так работать. надо так.

PHP:

$starturls=array_unique($starturls); // Убираем дубликаты, на всякий случай 
$cached=array_unique($cached); // Убираем дубликаты

sherh · 20 Апр 2009

-=Xardas=- написал(а):
а sleep() или usleep() не нравится? ...

-=Xardas=-, не работает. Гугл все равно банит, успевает сохранить 40-50 страниц и все. Может можно как-то по-другому?

swer · 20 Апр 2009

А еще лучше через прокси,к прим у меня поиск по н сайтам,и что бы не банили я использую прокси

HTML:

$proxy_host = array("127.0.0.1:8080", "127.0.0.1:80", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080", "127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080","127.0.0.1:8080");
$sikl = rand(0, 16);
$proxy=$proxy_host[$sikl];

а дальше скачиваю через курл(вставляя значение прокси $proxy) и все дела...
Получается так что он у тебя рандомно берет прокси что не вызывает у гугля подозрения....

-=Xardas=- · 21 Апр 2009

sherh написал(а):
-=Xardas=-, не работает. Гугл все равно банит, успевает сохранить 40-50 страниц и все. Может можно как-то по-другому?

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

_sergey_ · 23 Мар 2011

Скомпоновал, указанное выше получилось:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Запускаю на Денвере, указываю домен, через несколько секунд независимо от домена, какой ни введёшь - появляется надпись не найдено. В чём может быть дело?

Парсер кеша google - помогите модернизировать

sherh

Постоялец

-=Xardas=-

Гуру форума

Liver

Гуру форума

sherh

Постоялец

swer

Профессор

-=Xardas=-

Гуру форума

_sergey_

Писатель