[Архив] nofollow checker

Тема в разделе "SEO Скрипты", создана пользователем Unlimited, 8 сен 2007.

Статус темы:
Закрыта.
  1. Unlimited

    Unlimited

    Регистр.:
    13 окт 2006
    Сообщения:
    156
    Симпатии:
    65
    Накатал скриптик для проверки списка сайта на наличие nofollow как атрибута у ссылок, всего пару строчек...
    Создаем файл urls.txt туда кидаем линки, в эту же директорию помещаем скрипт и ставим на неё chmod 777
    Запускаем, по окончанию появится два файла
    nofollow.txt
    withoutnofollow.txt
    Содержание соответсвует названию...
    В случае чего результат не может быть определен правельно
    Возьмем для примера вордпресс, в коментах обычно ссылки помечаются nofollow, но если, например, не будет коментов, то и не будет атрибута... хз как решить =)
    Сам скрипт:

    PHP:
    <?PHP
    /*
     By UnlimiteD 
    */
    set_time_limit(3600*24*7);
    $arr file("urls.txt");
    foreach(
    $arr as $siteurl){
          
    $hostparse_url($siteurl);
          
    $fp=fsockopen($host['host'], 80$errno$errstr3); 
          if (
    $fp){ 
             
    $out  "GET $siteurl HTTP/1.1\r\n"
             
    $out .= "Host: $host[host]\r\n";                          
             
    $out .= "Connection: Close\r\n\r\n";                 
          
    fputs($fp$out);
          while (!
    feof($fp)){ 
            
    $Page.= fgets($fp1024); 
          }
          
    fclose($fp);
          } 
        if(
    $siteurl != '' and eregi("nofollow"$Page)){   
              echo 
    "C $siteurl <br />";    
              
    $rew fopen("nofollow.txt""a");
              
    fputs($rewtrim($siteurl)."\n");
              
    fclose($rew);
        }else{
              echo 
    "Без $siteurl <br />";
              
    $rew fopen("withoutnofollow.txt""a");
              
    fputs($rewtrim($siteurl)."\n");
              
    fclose($rew);
        }
        
    flush();
        
    $Page ''
    }
    ?>

    Обновленно 08.09.07
    Отказался от юзанья file();
    сайт получаем через сокеты, можно менять таймаут
     
    Antroplag нравится это.
  2. blackspy

    blackspy

    Регистр.:
    11 мар 2007
    Сообщения:
    415
    Симпатии:
    141
    Я в пхп ноль, но что-то мне подсказывает скрипт не многопоточный. Верно? :)
     
  3. Unlimited

    Unlimited

    Регистр.:
    13 окт 2006
    Сообщения:
    156
    Симпатии:
    65
    верно, на php вообще нет поддержки многопоточности, но впринципе её сделать можно, даже не сделать а эмулировать, например разбиваем файл на подфайлы, и каждый отдаем отдельному процессу...
     
  4. blackspy

    blackspy

    Регистр.:
    11 мар 2007
    Сообщения:
    415
    Симпатии:
    141
    php5 multi_curl и многопоточность будет ;)
     
  5. Unlimited

    Unlimited

    Регистр.:
    13 окт 2006
    Сообщения:
    156
    Симпатии:
    65
    не слышал о этой библиотеке, тем более я через сокеты работаю =) а в этом скрипте вообще file(); =) но если будет то большой гудд
     
  6. lobzik

    lobzik

    Регистр.:
    8 авг 2006
    Сообщения:
    311
    Симпатии:
    49
    хм.. не ужели так мало людей незнало об мултикурле...
    Чекер мне не понравился... из исходника видно что он просто смотрить, если на паге слово "nofolow". Отсееться много паг где нофолов не в коменте, а в других ссылках... хотя если вебмастер использовал где-то нофолов, он возможно и коменты тоже занофолит...
     
  7. Christ

    Christ Постоялец

    Регистр.:
    24 ноя 2006
    Сообщения:
    62
    Симпатии:
    8
    Да, кажется, плагины обычно "нофоловят" все линки, а вот которые нужно сам оставляешь чистыми. Так что, скорее всего комменты будут "нофолов"...
     
  8. Antroplag

    Antroplag Постоялец

    Регистр.:
    16 апр 2007
    Сообщения:
    103
    Симпатии:
    32
    Эх,вот если б его бы научить проверять именно кусок кода, от которого начинаются каменты...
    Будет о чем подумать на досуге.
     
  9. Unlimited

    Unlimited

    Регистр.:
    13 окт 2006
    Сообщения:
    156
    Симпатии:
    65
    Впринципе нечего сложного, регулярным выражением вырываем нужный код и затем чекаем... еденственное меня смущает то, что если коментов нет, nofollow'а тоже нет... а вот когда они появятся годать будет там он или нет... хотя можно и такие сайты отсеевать и через некоторое время снова чекать
     
  10. lobzik

    lobzik

    Регистр.:
    8 авг 2006
    Сообщения:
    311
    Симпатии:
    49
    2Unlimited
    Это конечно можно реализовать - но какой монстр получиться тогда... Ведь блоги имеют разную структуру.
    Тут выйти из положения можно, если проспамить блоги ссылкой, а потом чекером пройтись и просмотреть где ссылка добавилась без нофолоу... Тогда получиться 100% хорошая база, но скорее всего выйдет очень мало ресов под спам... Его надо вклинивать на стадии спама - прошел спам одного блога, тут чекер сразу проверяет блог на нофолоу. Совневаюсь, что кто-то будет это писать... хотя:-]
     
Статус темы:
Закрыта.