Парсинг сайта, или как правильно маскироваться?

Тема в разделе "PHP", создана пользователем greatilya, 1 ноя 2010.

Статус темы:
Закрыта.
Модераторы: latteo
  1. greatilya

    greatilya Создатель

    Регистр.:
    21 май 2009
    Сообщения:
    35
    Симпатии:
    3
    Парсю Я*н*д*е*к*с через программу написанную на делфи. При большом количестве запросов за день он выкидывает капчу. При парсинге я указываею UserAgent такой же как и в браузере. Потом я в браузере ввожу код капчи и больше она у меня не вылазит. Но вот программа парсить так и не хочет, там вылазит капча, как сделать так чтобы я ввел капчу в браузере и программа продолжила парсинг. Что еще кроме UserAgent учитывается?
     
  2. Belial

    Belial

    Регистр.:
    1 фев 2010
    Сообщения:
    236
    Симпатии:
    113
    Куки.
    10 кук
     
    greatilya нравится это.
  3. Liver

    Liver

    Регистр.:
    24 сен 2008
    Сообщения:
    316
    Симпатии:
    91
    Палево идет по IP. Выкидывается капча и при правильном вводе ставится кука, по которой потом бот и считает браузер за человека. Программа должна сохранить куку после ввода капчи.
     
    greatilya нравится это.
  4. Nei

    Nei Nosce te ipsum

    Регистр.:
    5 сен 2009
    Сообщения:
    636
    Симпатии:
    503
    Не знаю как у кого, но у меня часто даже после ввода капчи вручную не хочет работать Яндекс. Из браузера напрямую я имею ввиду.
    Выкидывает еще на одну капчу и так до бесконечности.
    Помогает только смена IP (благо он у меня динамический)
     
  5. everest

    everest

    Регистр.:
    20 дек 2006
    Сообщения:
    197
    Симпатии:
    20
    Думаю, что при множестве запросов они действительно будут выдавать капчи постоянно. Можно сделать запросы страниц по таймеру, например раз в 20-30 секунд - тогда кроме всего прочего и работа будет похожа на человека.
     
  6. doxx

    doxx |||llll|||||llll|||

    Регистр.:
    18 фев 2009
    Сообщения:
    1.058
    Симпатии:
    212
    я вручную набираю несколько запросов в сутки.. (просто ищу нужное)
    каптча постоянно вылазит на яше,после 2-3 запроса ( даже если они через час сделаны ) раньше такого не было..напрягает
     
  7. trooll

    trooll PHP кодер

    Регистр.:
    22 дек 2008
    Сообщения:
    503
    Симпатии:
    116
    У Яндекса дурная защитная система, как показывает практика сейчас он работает через чаз час будет требовать у тебя ввод капчи без конечно.

    Я забил в свое время на ввод Яндекс Бот капчи, и решил больше не когда с ней не связываться, во всех скрипта которые работают с Я.Поисковиком обход защиты ведется через смену прокси, которая в свою очередь перед использованием чекаеться на забанность Я.Поисковиком, ну и конечно интервалы между запросами.
     
  8. and77st

    and77st Постоялец

    Регистр.:
    23 апр 2008
    Сообщения:
    133
    Симпатии:
    60
    сам не пробовал но site-auditor при проверке позиций кидает на qip.ru у которого выдача яндекса :)
     
Статус темы:
Закрыта.