Парсинг Яндекса и Гугла. Вопрос про капчу.

tulvit · 3 Фев 2010

Требуется парсить серп Яндекса и Гугла, а также чекать количество страниц в индексе, нахождения страницы в кэше. Задача состоит в том, чтобы капча вылезала максимально редко, а в идеале вообще не появлялась.

Есть ли разница, парсить файловыми функциями(file_get_contents()) или надо эмулировать браузер и юзать сокеты/CURL? Если разница большая и эмулировать браузер надо, то фальсифицировать достаточно только USER_AGENT или еще что-нибудь, реферер тот же?

С какой частотой лучше делать запросы? Если делать паузу, то какой продолжительности, и надо ли делать ее рандомной, например в промежутке 2-4 секунды? Или же более продуктивно делать запросов n без задержки, потом пауза в несколько секунд, потом снова несколько запросов.

Очень не хочется искать самому оптимальный вариант, тем более задача более чем тривиальна. Надеюсь, кто-нибудь поделится практическим опытом. Заранее спасибо.

satih · 3 Фев 2010

На все вопросы ответить не смогу, но насчет гугля важен еще сам запрос, чем больше юзаешь операторов, тем быстрее бан, с inurl каптча практически моментально, поэтому по мере возможности парсят с текстом страниц (общими признаками).
Без проксей ты будешь очень долго и нудно парсить, парсинг с задержками без проксей делается только если нужно спарсить точную выдачу малого количества страниц, скажем малопопулярный двиг которого всего 2к установок.
У каптчи есть также такое вредное свойство, что с того момента как ты ее получил, получать ее будешь гораздо чаще, т.е. раз тебя спалили, будут меньше доверять, а в конце гугля вообще скажет что больше тебе ничего показывать не будет.

tulvit · 3 Фев 2010

В основном надо парсить будет без операторов.

Про гугл знаю, несколько проверок на наличие кэша страницы - и бан на пол дня, даже капчу не дает ввести.

Прокси использовать не хочу по некоторым соображениям.

Объемы парсинга примерно от нескольких сотен до нескольких тысяч запросов.

К примеру, тот же Оллсабмиттер парсит все достаточно хорошо, капчи, правда, появляются достаточно часто, но это не смертельно.

satih · 3 Фев 2010

Понятно что каптчи несмертельно, я например хрефом в 500 потоков с сервака парсю, временами даже ложу *** на операторы

только тебе ответил, наткнулся на форуме ботмастера на похожий вопрос, вот что говорят (поверь мне, никому не верь (ц)

)

Парсил Я-блоги с задержкой в 25 секунд... работа продолжалась 4 часа

30 сек - для форумов в поток 1

10-11 секунд - вполне нормально даже с операторами. Естественно, парсить в 1 поток.
Но обращаться Хрефер в Гугле должен не к ie?, а к search?

зы: олсаб не парсер для серьезных объемов, или у меня год назад комп был слишком старый, но при интенсивном парсинге он загибался.
зыы: кста с параметрами тоже нужно поиграться, и стараться искать как большинство юзеров, без разных хитрых интерфейсов, насчет этого не тестил, но думаю разница будет.

tulvit · 3 Фев 2010

satih написал(а):
олсаб не парсер для серьезных объемов, или у меня год назад комп был слишком старый, но при интенсивном парсинге он загибался

Я парсю успешно, объемы, конечно, не сверхгигантские, но все же. Комп тоже не предмет гордости. Может в версии олсаба дело, у меня последняя версия, лицензия. Хотя помнится год-два назад, когда сам собирал базы для прогона и выпарсивал десятки тысяч разных форумов, гостевых и досок, тоже проблем не было, сейчас точно не вспомню, но вроде даже капча практически никогда не выскакивала.

10-11 секунд - вполне нормально даже с операторами. Естественно, парсить в 1 поток.
Но обращаться Хрефер в Гугле должен не к ie?, а к search?

10 секунд это уж слишком как-то. 1000 запросов за почти три часа, только если на ночь поставить парситься. Тем более здесь про гугл, с яндексом еще жестче дела обстоят. При парсинге оллсабом яндекса и гугла при одинаковых параметрах капчу гугла вижу очень редко, капчу яндекса - постоянно.

Пока самый актуальный вопрос это есть ли разница, чем парсить, файловыми функциями или CURL-ом и подсовывать левый юзер-агент и прочее. А с задержками видно придется экспериментировать.

betatest · 3 Фев 2010

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

solarscape · 17 Фев 2010

tulvit написал(а):
Есть ли разница, парсить файловыми функциями(file_get_contents()) или надо эмулировать браузер и юзать сокеты/CURL?

Разница будет в скорости работы. С CURL парсится намного быстрее.

WoolF · 10 Мар 2010

tulvit написал(а):
Задача состоит в том, чтобы капча вылезала максимально редко, а в идеале вообще не появлялась.

tulvit написал(а):
К примеру, тот же Оллсабмиттер парсит все достаточно хорошо, капчи, правда, появляются достаточно часто, но это не смертельно.

Противоречие какое-то..или мне показалось

а по теме, имхо, лучше через сокеты либо curl, эмулируя и браузер, и реферер. Не знаю на счет кукисов, ибо тот же яндекс и их ставит при поиске, например yandexuid, но думаю было бы не лишним и это учесть.

InoffLine · 17 Мар 2010

А как насчет использования Yandex.Xml - для яндекса дает 1000 запросов в день без капч.

Дед Макар · 21 Май 2010

На все вопросы ответить не смогу, но насчет гугля важен еще сам запрос, чем больше юзаешь операторов, тем быстрее бан, с inurl каптча практически моментально, поэтому по мере возможности парсят с текстом страниц (общими признаками).
Без проксей ты будешь очень долго и нудно парсить, парсинг с задержками без проксей делается только если нужно спарсить точную выдачу малого количества страниц, скажем малопопулярный двиг которого всего 2к установок.
У каптчи есть также такое вредное свойство, что с того момента как ты ее получил, получать ее будешь гораздо чаще, т.е. раз тебя спалили, будут меньше доверять, а в конце гугля вообще скажет что больше тебе ничего показывать не будет.

Парсинг Яндекса и Гугла. Вопрос про капчу.

tulvit

Создатель

satih

Хранитель порядка

tulvit

Создатель

satih

Хранитель порядка

tulvit

Создатель

betatest

Постоялец

solarscape

Постоялец

WoolF

Создатель

InoffLine

Постоялец

Дед Макар

Создатель