Парсинг гугла

Тема в разделе "Мегафлуд", создана пользователем extrimportal, 5 янв 2011.

  1. extrimportal

    extrimportal

    Регистр.:
    28 ноя 2008
    Сообщения:
    540
    Симпатии:
    70
    Сорри за тупой вопрос. Но никогда не приходилось его парсить. И вот надо напарсить длешок и вот что выходит. По тому запросу что мне надо inurl:blablabla пишет примером 12 к результатов. Когда вот пробую парсить их скажем через олсабмиттер получаю только 300-400 сайтов. Вопрос: а существуют ли те 12 к вообще? и как их можно попарсить если они есть?
     
  2. gts

    gts

    Регистр.:
    12 сен 2010
    Сообщения:
    271
    Симпатии:
    42
    Там до 1000 только показывает, но можно использовать дополнительные операторы для расширенного поиска, указывая доменную зону, язык, страну и т.д.
     
  3. extrimportal

    extrimportal

    Регистр.:
    28 ноя 2008
    Сообщения:
    540
    Симпатии:
    70
    Не понял. А к чему это? Мне нужно напарсить все 12 если они есть, а не смотреть их. Это можно сделать?
     
  4. ar4ik

    ar4ik

    Регистр.:
    26 ноя 2007
    Сообщения:
    331
    Симпатии:
    95
    смотри, больше 1000 результатов по одному завпросу гугл не даст

    значит нужно комбинировать спрашиваешь
    одну группу сначала inurl:blablabla site:ru
    собрал урлы
    потом inurl:blablabla site:com
    в выдаче уже другой список сайтов, - собрал урлы
    и т.д.
    потом естественно на дубли почисть

    вот с помощью таких доп параметров можно выкачать почти все урлы

    можно как в хрефере просто слова дополнительные подставлять
    inurl:blablabla news
    inurl:blablabla obama
    и т.д.
     
  5. inkubus

    inkubus

    Регистр.:
    27 мар 2010
    Сообщения:
    180
    Симпатии:
    56
  6. extrimportal

    extrimportal

    Регистр.:
    28 ноя 2008
    Сообщения:
    540
    Симпатии:
    70
    Ну вот в том то и суть. Вот показывает результат 26 к. Но он даже тысячу не отдаёт! Добавлю я сайт:орг сайт:ру сайт: ком, и чувствую что опять по 300 результатов бросать будет...
     
  7. SimpleUser

    SimpleUser Постоялец

    Регистр.:
    14 ноя 2007
    Сообщения:
    95
    Симпатии:
    6
    Придется по 1000 только смотреть.

    Гуглу нет смысла показывать все 26к результатов. Мало кто доходит до 10 страницы даже.
     
  8. inkubus

    inkubus

    Регистр.:
    27 мар 2010
    Сообщения:
    180
    Симпатии:
    56
    именно так и распарсивают большое колличество урлов. 1000 .com + 1000 .org + 1000 .biz и т.д. Соберешь все 26к
     
  9. Alternator

    Alternator

    Регистр.:
    23 мар 2009
    Сообщения:
    295
    Симпатии:
    145
    а еще гугл очень быстро банит запосы типа inurl, intitle, и аналогичные
    запаситесь большим количеством проксь
    возможно как раз в бане и дело
     
  10. Anton

    Anton ¯\_(ツ)_/¯

    Moderator
    Регистр.:
    28 авг 2007
    Сообщения:
    650
    Симпатии:
    638
    Скинь запрос в ЛС, напарсю все, что есть по возможности.