Парсер кэша Google

Тема в разделе "Как сделать...", создана пользователем matrixid, 25 апр 2014.

  1. matrixid

    matrixid

    Регистр.:
    6 ноя 2013
    Сообщения:
    250
    Симпатии:
    279
    Ищу рабочий парсер кэша Google, на просторах интернета рабочего не нашел, может кто поделиться?
    P.S: Сохранять вручную не вариант, т.к. результатов очень много, и требуется это регулярно.
     
    Последнее редактирование: 25 апр 2014
  2. Grigirij

    Grigirij $$$

    Регистр.:
    25 сен 2008
    Сообщения:
    699
    Симпатии:
    331
  3. matrixid

    matrixid

    Регистр.:
    6 ноя 2013
    Сообщения:
    250
    Симпатии:
    279
    сложноватый вариант, это получается мне надо предварительно составить список скачиваемых стараниц? :confused:
    а если в кеше 1000 страниц?

    P.S.: как посмотреть единичные страницы я знаю, нужен скрипт парсер всего сайта из кеша
     
  4. Grigirij

    Grigirij $$$

    Регистр.:
    25 сен 2008
    Сообщения:
    699
    Симпатии:
    331
    парсишь все страницы SiteMap Generator, потмо через ексель или нотепад+ подставляешь http://webcache.googleusercontent.com/search?q=cache:
    и готовые ссыли в контент даунлоадер
     
  5. matrixid

    matrixid

    Регистр.:
    6 ноя 2013
    Сообщения:
    250
    Симпатии:
    279
    гугл по запросу SiteMap Generator выдал кучу разной дряни, что именно ты имеешь ввиду?
    Карту сайта? а если ее нет на сайте? и сайт уже не работает (не существует)
     
  6. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.744
    Симпатии:
    1.155
    Это уже совершенно другая задача. Скритпт тоже же не из воздуха должен брать урлы страниц, а гугл выдаёт до 1000 результатов поиска - часто меньше.
    Нужен паук, чтобы он заходил на известные страницы в кэше гугла, затем считывал куда идут ссылки на них, подставлял их в запрос гугла на предмет кэша и так далее, пока все ссылки страниц которые есть в кэше не найдёт - потом список страниц уже на парсинг контента отсылать. Или в паук, накидать маски урлов, чтобы он считал выдачу какие там есть адреса страниц по ним, это проще, но не факт что всё охватить можно.
     
    matrixid нравится это.
  7. Grigirij

    Grigirij $$$

    Регистр.:
    25 сен 2008
    Сообщения:
    699
    Симпатии:
    331
    Я написал чем я пользуюсь, тебе не обязательно собирать ссылки с сайта таким же инструментом как и я.
    С этим легко справится и Content Downloader, собери им все ссылки на страницы с сайта.

    Вот эту темку посмотри: https://www.nulled.cc/threads/240398/#post-2111242

    А SiteMap Generator который я юзаю можешь скачать тут: ТЫЦ
     
    Последнее редактирование: 26 апр 2014
    matrixid нравится это.
  8. matrixid

    matrixid

    Регистр.:
    6 ноя 2013
    Сообщения:
    250
    Симпатии:
    279
    SiteMap Generator облазил в доль и поперек, как я понял он работает с живыми сайтами
    меня же интересует мертвый (недоступный сайт), но который есть в кеше гугла
    Content Downloader - весьма функциональная програмулина, пока ковыряю без результатно
    Может есть еще какие решения?