парсинг гугла

Статус
В этой теме нельзя размещать новые ответы.

netwom

Создатель
Регистрация
14 Июн 2008
Сообщения
27
Реакции
2
Не пойму, как гугл определяет, что его робот парсит...
Вроде все ему передаю, что мозилла передает. И куки принимаю, заменяю. И реферера каждый раз прошлого даю.
И паузу рандомную делаю. Только ничего не помогает....
Просто поиск парсить может. Выдачу вида
Код:
someword inurl:phpbb
никак не хочет отдать. Говорит, что мой скрипт - робот!
Обидно как-то.
Может кто поможет? (Купить парсер - не предлагать)
 
inurl: phpbb это как красная тряпка для быка:D
Гугл особо не разбираясь после нескольких запросов посылает **х...

инурл вообще рекомендуется не использовать при автоматических запросах.
можно просто phpbb использовать без inurl.

ПС тема не про пхп
 
Спасибо. Я так и подумал)
 
гугль даже через прокси с inurl:phpbb посылает :( а вот совет
Для просмотра ссылки Войди или Зарегистрируйся помог. Немного похитрить и можно без inurl не плохо парсить.
 
Что-то не пойму... Решил попарсить просто по ключевику. Но после 1000 гугл начинает мне отдавать только youtube.com. Не понимаю почему.
 
Что-то не пойму... Решил попарсить просто по ключевику. Но после 1000 гугл начинает мне отдавать только youtube.com. Не понимаю почему.

А больше 1000 потому что гугл вам и не даст попарсить :D
 
Да, точно.
А вообще стоит использовать прокси для парсинга?
 
Да, точно.
А вообще стоит использовать прокси для парсинга?

Вообще конечно это необходимость...
Если раньше помогали задержки между запросами и парси сколько влезет, то сейчас уже без этого никак. Попарсишь пару часов и всё - айпи в бане.
Сам писал парсер, но он у меня прокси не юзает. Когда я его написал он у меня хорошо напарсил, пробовал недавно - бан айпи за час.
Вот такие вот пироги:)
 
Помогает удаление cookies и смена браузера.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху