чем спарсить проиндексированные Яшей страницы

Тема в разделе "Русские поисковики", создана пользователем leonidius2004, 8 авг 2009.

Статус темы:
Закрыта.
  1. leonidius2004

    leonidius2004 Постоялец

    Регистр.:
    30 июл 2008
    Сообщения:
    51
    Симпатии:
    2
    имею динамич дор (Яшей проиндексировано 6500 страниц)
    собственно сабж. чем спарсить проиндексированные Яшей страницы для составления карты сайта (для скармливания в сапу, ксапу и т.п.)
     
  2. Dmytr0

    Dmytr0

    Регистр.:
    11 авг 2008
    Сообщения:
    242
    Симпатии:
    34
    Сгенерите карту сайта, страницы из карты закиньте в YCCY и проверьте на индексированность.
     
  3. akgrad

    akgrad

    Регистр.:
    26 июл 2008
    Сообщения:
    161
    Симпатии:
    29
    Демо-версией аллсубмиттера. В разделе "Базы" выберите "Мастер СЕ", дальше там всё понятно.
     
  4. tatams

    tatams

    Регистр.:
    15 май 2009
    Сообщения:
    501
    Симпатии:
    84
  5. Dmytr0

    Dmytr0

    Регистр.:
    11 авг 2008
    Сообщения:
    242
    Симпатии:
    34
    tatams, там только 1к страниц покажет, больше не вытащить.
     
  6. leonidius2004

    leonidius2004 Постоялец

    Регистр.:
    30 июл 2008
    Сообщения:
    51
    Симпатии:
    2
    ручками парсить 6,5к страниц??? или я чего-то недопонял...или вы

    на доре больше 10к старниц (а проиндексировалось только 6,5 к).. поэтому мне что в лоб что по лбу. что карту скйта составлять а потом выкидывать неиндексенные стариницы, либо с Яши вытаскивать уже проиндексированные....ГЕМОРР

    Добавлено через 3 минуты
    спасибо за помощь... еще не закончило парсить... но процесс вроде идет.
    кстати, а какую задержку оптимальную выставить??
    ... эээх рано радовался... только зо ссылок вытащило и сказало-DEMO SEARCH (30 only inbound links per search engine)
    демо версия больше 30линков не берет????
     
  7. prostors

    prostors Постоялец

    Регистр.:
    25 ноя 2008
    Сообщения:
    60
    Симпатии:
    3
    http://www.graffity.biz/products/link_checker/ вот этим можно сгенерить карту сайта. ограничения на кол-во страниц в описаниии нет. ну а потом в YCCY забрасываете и проверяете.
     
  8. limpopo

    limpopo

    Регистр.:
    31 окт 2007
    Сообщения:
    544
    Симпатии:
    83
    вот этой программой gsitecrawler можно создать карту сайта
     
  9. akgrad

    akgrad

    Регистр.:
    26 июл 2008
    Сообщения:
    161
    Симпатии:
    29
    Обидно.. У меня лицензия, не знал что только 30 ссылок в демке.
    Задержку я ставлю 12-13 секунд если без проксей.
     
  10. Inviseble_Demon

    Inviseble_Demon

    Регистр.:
    11 дек 2008
    Сообщения:
    482
    Симпатии:
    350
    Ебте ! А не проще написать маленикий скриптец с рекурсией на курлах !?

    Если тема жива ТС опиши подробнее:

    Берем домен, задержку, прокси, курл, PHP и денвер для шлефовки.

    http://yandex.ru/yandsearch?surl=ДОМИН
    ищем на странице 2 страницу если есть то рекурсия и далее поист 3 и т.д.

    потом тупа из огромного текста выпарсиваем ссылки и строем XML :nezn:

    Если реально нужно - свисни => напишу!;)
     
Статус темы:
Закрыта.