1. Задавайте здесь вопросы о коде, которые не подходят в другие разделы, такие как:
    Дизайн > Верстка
    PHP > Как сделать на PHP
    Скрыть объявление

Парсинг яндекса, как это делается сейчас?

Тема в разделе "Web Coding", создана пользователем Mendel, 12 июл 2014.

Статус темы:
Закрыта.
Модераторы: latteo
  1. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    Подскажите люди добрые как делать автоматические запросы к яше в современных условиях? Как я посмотрю все старые механизмы уже устарели. По АПИ непонятно вообще какие лимиты. Старые ключи нерабочие. В общем вылез я из берлоги, а за пять лет поезд то ушел)

    Если коротко, то мне нужно делать пару тысяч запросов в сутки (возможно скоро пару сотен тысяч, но сейчас и три тысячи хватит) к яндексу или гуглу. Обычные поисковые запросы, обычная выдача. Достаточно только урлы получать. Если кто даст готовый АПИ за разумную денежку, то буду благодарен. Ну или в общих чертах набросайте что сейчас происходит.

    Правильно ли я понял, что сейчас парсят обычными регулярками через прокси, и в случае капчи лупят капчу через сервисы капчи? Если да, то какие сервисы капчи сейчас в моде? У кого брать прокси под это дело лучше всего? Так чтобы надежно было....
     
  2. TopReseller

    TopReseller

    Регистр.:
    30 июл 2011
    Сообщения:
    322
    Симпатии:
    113
    хорошие прокси
    антигейт и рукапча
     
  3. RAPCorp

    RAPCorp Постоялец

    Регистр.:
    12 сен 2012
    Сообщения:
    64
    Симпатии:
    4
  4. PyroMan2012

    PyroMan2012 Создатель

    Регистр.:
    8 ноя 2012
    Сообщения:
    17
    Симпатии:
    4
    По вопросу распознавания капчи - меня антигейт полностью устраивает. Пробовал другие подобные сервисы - везде какие-нибудь досадные мелочи, которые все испортили :)
    Раньше, когда требовались прокси - пробовал покупать и с рук, и на всяких "модных" сервисах. С рук всегда получались качественнее, почему-то.
     
    Mendel нравится это.
  5. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    Я в эти игры больше не играю. Играть по необъявленным правилам нет смысла. Не верю я им. Делаешь всё по правилам, а потом тебе сообщают о том что для твоего сервиса апи не дадут. Почему? Просто так. Как узнать кому дадут а кому нет? Потратить полгода на разработку и раскрутку. Нафиг-нафиг. Собственно с апи и хочу слезть (лимиты на запросы мы делаем по своему усмотрению, как вам из увеличить мы не скажем, целуйте нам ноги за это, а то будет с вами как с ЦОПами).
     
    eshkin нравится это.
  6. RAPCorp

    RAPCorp Постоялец

    Регистр.:
    12 сен 2012
    Сообщения:
    64
    Симпатии:
    4
    Вообще-то лимиты передаются от сайтов добавленных в вебмастер, либо от любого другого пользователя.
     
  7. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    Передаются как? Ок, я сформулирую чуть проще - мне надо на один хит пользователей делать восемь запросов к поисковику.
     
  8. RAPCorp

    RAPCorp Постоялец

    Регистр.:
    12 сен 2012
    Сообщения:
    64
    Симпатии:
    4
    Перейти по ссылке - вот тут, добавленные в вебмастер сайты показывают сколько у сайтов есть лимитов, вот у меня общих 280.

    Вот скриншот моей панели: Перейти по ссылке

    Ниже приведён список сайтов и по каждому сайту свои лимиты. Как это высчитывается, есть предположение что по ранжированию и тИЦ. Ещё одно забыл написать, количество лимитов это количество запросов в сутки, а там уже сами высчитывайте сколько надо.
     
    eshkin, latteo и Mendel нравится это.
  9. papacarlo

    papacarlo Постоялец

    Регистр.:
    31 июл 2007
    Сообщения:
    100
    Симпатии:
    10
    Также обращайте внимание на график "Разрешённое число запросов в зависимости от времени суток" - оно неравномерное в течение суток
     
    Mendel нравится это.
  10. Ultharas

    Ultharas Создатель

    Регистр.:
    26 сен 2014
    Сообщения:
    27
    Симпатии:
    10
    Еще, вместо медленных проксей можно юзать vpn-ки. Юзаю в связке с питоном, можно и многопоточность организовать
     
Статус темы:
Закрыта.