Ребят может кто сделает скрипт парсера внешних ссылок на сайте?

Тема в разделе "PHP", создана пользователем rit, 27 июл 2009.

Статус темы:
Закрыта.
Модераторы: latteo
  1. rit

    rit

    Регистр.:
    5 дек 2006
    Сообщения:
    571
    Симпатии:
    116
    Ребят может кто сделает скрипт парсера внешних ссылок на сайте?

    Т.е. скрипт парсит все страницы сайта и для каждой страницы записывает внешние ссылки.

    Кто сможет такой скрипт забацать?
     
  2. antidote

    antidote

    Регистр.:
    21 янв 2008
    Сообщения:
    167
    Симпатии:
    42
    Используй Xenu's Link Sleuth. Он тебе выдаст список ссылок сайта. Если в настройках снимешь галочку check external links, то после скана получишь вснешние ссылки с пометкой skip external.
    Результат потом можно экспортировать например в csv. Но это по сути для ручной прогонки, если тебе это надо на постоянной основе, то тулза отпадает
     
  3. swer

    swer

    Регистр.:
    15 июн 2008
    Сообщения:
    305
    Симпатии:
    38
    PHP:
    $contents file_get_contents($site);

    $contents strip_tags($contents"<a>");

    preg_match_all("/(http:\\/\\/)?([a-z_0-9-.]+\\.[a-z]{2,3}(([ \"'>\r\n\t])|(\\/([^ \"'>\r\n\t]*)?)))/"$contents$url);

    for(
    $i=0$i<10$i++){
    echo 
    $url[0][$i];}
    вроде так....пробуй, но если у тя внешние ссылки начинаются с http:// то не сработает,те выдаст все ссылки.
     
  4. Disher

    Disher Постоялец

    Регистр.:
    25 июл 2009
    Сообщения:
    90
    Симпатии:
    8
    Можно еще такое выражение использовать.
    Код:
    $reg_exp = preg_match_all("/<[Aa][ \r\n\t]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\n\r\t]*([^ \"'>\r\n\t#]+)[^>]*>/", $content, $url);  
    
     
  5. localhost:80

    localhost:80 Постоялец

    Регистр.:
    4 дек 2008
    Сообщения:
    102
    Симпатии:
    15
    количество внешних ссылок, их визуальное выделение на странице, пузомерки и прочее уже реализовано в Seobar `ах для браузеров
     
Статус темы:
Закрыта.