Получить urls всех страниц сайта

Тема в разделе "PHP Pro", создана пользователем Alexitdv, 21 июл 2009.

Статус темы:
Закрыта.
  1. Alexitdv

    Alexitdv

    Регистр.:
    4 янв 2008
    Сообщения:
    161
    Симпатии:
    65
    В общем нужна помощь с идея реализации данного сабжа. Закинул сюда, так как не нашел подходящей ветки. Так, что основная реализация PHP, но можно и другие идеи :)

    Что уже пробовал:
    1. Зеркалить сайт wget'ом и выдирать ссылки из всех файлов, удалить дубли. (коряво да wget долго тянит)
    2. Как вариант можно залить сайт на локалхост и дальше пункт 1. Но все сайты так делать - умру.
    3. Парсить выдачу яндекса, но тут ограничение в 1К страниц.

    Нужны свежие идеи.
     
  2. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    884
    Симпатии:
    540
    Я не вижу иной вариант как тащить все страницы скриптом.
    А если например часть страниц закрыта роботом?

    Как вариант использовать мульти-курл или хотя бы курл.
    Можно посмотреть на принцип действия генераторов карт сайтов. Хотя врядли там принцип действия кардинально отличается от
     
  3. Alexitdv

    Alexitdv

    Регистр.:
    4 янв 2008
    Сообщения:
    161
    Симпатии:
    65
    Нашел подходящий вариант

    3. Заюзать Перейти по ссылке. Заявку оформляешь, робот ссылки находит, но не оплачиваешь :)

    PS: не канает такая тема) Наивный я))
     
  4. untwist

    untwist Постоялец

    Регистр.:
    30 сен 2006
    Сообщения:
    121
    Симпатии:
    35
    Да, регулярные + cURL в помощь, только курл говорят не очень быстро работает, хотя по мне так норм но я больше 3-4 страниц не обрабатывал.

    а схемка проста :
    1) конект на головную донора
    2) вытаскивание всех ссылок
    3) сохранение в базу
    ну а дольше вытаскивает из базы и цикл продолжается

    а когда заканчивает тебе решать ))
     
  5. Juri

    Juri

    Заблокирован
    Регистр.:
    5 окт 2007
    Сообщения:
    1.065
    Симпатии:
    197
    Если все правильно понял то это должно опдойти.
    Главное юзать с локалхоста а то если много страниц то затупит. Нужно будет переработать так как он просто выводит на экран.


    Когда то писал для себя.


    Посмотреть вложение leech.zip
     
    Tima111, Disher и Alexitdv нравится это.
Статус темы:
Закрыта.