[Ищу] Парсер Кэша Яндекса

Тема в разделе "SEO Скрипты", создана пользователем aX0en, 7 июн 2010.

Статус темы:
Закрыта.
  1. aX0en

    aX0en Постоялец

    Регистр.:
    5 авг 2009
    Сообщения:
    108
    Симпатии:
    47
    Нужно восстановить из кэша яндекса сайт, подскажите чем можно?
     
  2. verissimo

    verissimo

    Регистр.:
    26 сен 2006
    Сообщения:
    438
    Симпатии:
    139
    Теоретически можно настроить Visual Web Ripper. Но у меня это не получилось.
     
  3. ocheretko

    ocheretko Постоялец

    Регистр.:
    28 фев 2009
    Сообщения:
    112
    Симпатии:
    50
  4. mr-graffity

    mr-graffity

    Регистр.:
    29 июл 2010
    Сообщения:
    163
    Симпатии:
    38
    Этот парсер у меня не работает
     
  5. Toha20072008

    Toha20072008

    Заблокирован
    Регистр.:
    17 фев 2008
    Сообщения:
    316
    Симпатии:
    50
    Да парсер ocheretko работать перестал, работал прекрасно до 12.07.2010 - но видать яндекс закрыл ему все входы.
    А жаль отличная была программка.
     
  6. poolk

    poolk Создатель

    Регистр.:
    12 июн 2006
    Сообщения:
    40
    Симпатии:
    17
    1. Узнаем все урлы которые нужно выдрернуть.
    2. Выдергиваем wget`ом (там можно рандомную задержку поставить в 2-4сек, мало ли)
    3. Обрезаем ненужные вставки от яндекса (я резал notepad++, там есть поддержка regexp)
    4. Радуемся результату.

    Единственное ограничение - узнать все урлы, если их больше 1000... Я так и не придумал, что с этим делать =(
     
  7. bonzaza

    bonzaza Постоялец

    Регистр.:
    13 ноя 2007
    Сообщения:
    53
    Симпатии:
    9
    2poolk

    Насколько понимаю сделать с этим ничего не получится, если только не работать в Яндексе. Однако можно попробовать вытащить максимум.

    Если на сайте есть какая-то логическая структура вложения, то можно вытащить какие-то куски уточняющими запросами.

    Например,
    Общий запрос.
    Уточняющий запрос.

    Других способов не вижу, может еще кто-то подскажет. Тоже интересно.
     
  8. latteo

    latteo Эффективное использование PHP, MySQL

    Moderator
    Регистр.:
    28 фев 2008
    Сообщения:
    1.451
    Симпатии:
    1.245
    смотрим структуру в гугл site:domain.com и парсим потом яшу :)
    Есть логи сервера - можно узнать какие были странички
    Есть вебмастер яндекс и гугл - там тоже можно отловить структуру
    Есть парсинг того, что уже вытащили на предмет ссылок
    ...
     
  9. serf

    serf

    Регистр.:
    19 сен 2006
    Сообщения:
    179
    Симпатии:
    35
    Обязателен ли кэш именно яндекса?
    В свое время делал так:
    http://web.archive.org/web/*/http://твой-сайт.ru
    находил нужный интервал времени, клацал-проверял наличие.
    Потом натравливал WebZip на адрес, указывая, что бы он выкачивал всё подряд, на максимальную глубину, но в пределах директории http://web.archive.org/web/*/http://твой-сайт.ru
    Сейчас уже не вспомню точно, но по моему играл роль слэш на конце.
    А вот что точно было- бан по IP после какого-то количества страниц. Решал с помощью пауз и смены своего IP. За ночь выкачивал несколько тысяч страниц со всеми элементами. Плюс надо где-то в опциях выставить что б WebZip свой баннер не лепил в каждую скачиваемую страницу. Отладить все "на хомячках" и только потом пускаться в скачку сайта.
    Единственное - CMS так не восстановишь, но набор файлов будет вполне функционален. Особенно если потом Дримвувером массово заменить все ссылки с того адреса на http://твой-сайт.ru
     
Статус темы:
Закрыта.