Скрипт выгрузки сайтов из Я.Каталога

Тема в разделе "Коммерческие", создана пользователем toxass, 9 июл 2008.

Информация :
Публиковать (для всех) нуленые версии, особенно от modulesgarden КАТЕГОРИЧЕСКИ не стоит. Тема мониторится оным разработчиком, а к нам приходят абузы которые нельзя игнорировать.
Статус темы:
Закрыта.
Модераторы: Amazko, Aste
  1. toxass

    toxass Постоялец

    Регистр.:
    24 июл 2007
    Сообщения:
    114
    Симпатии:
    15
    Должен парсить определенные разделы..и делать выдачу в виде простых ссылок.
     
  2. mdss

    mdss ♖♘♗♕♔♗♘♖

    Moderator
    Регистр.:
    20 фев 2007
    Сообщения:
    1.130
    Симпатии:
    668
    юзай поиск:
    http://www.nulled.ws/showthread.php?t=67849
    давно выложен
     
    toxass нравится это.
  3. toxass

    toxass Постоялец

    Регистр.:
    24 июл 2007
    Сообщения:
    114
    Симпатии:
    15
    Да, но он не работает.
    Код:
    <?php   
    set_time_limit(0);   
    $cat = 'Science/'; // указываем раздел который нужно парсить   
    $np_pat = '/<a target="_self" href="(.*)"><font color="#333333">след.<\/font><\/a>/U';   
    $yc_pat = '/<li>\n<font><a.*href="(.*)".*>.*<\/li>/isU';   
    $delay = '3';   
    $a=1;   
    $url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat;   
    $data = file_get_contents($url);   
    $col=preg_match_all("!<h3>(.*?)</h3>!si",$data,$ok);   
    $col=substr($ok[0][0],strpos($ok[0][0],":")+1);   
    $col=trim($col);   
    $col_pages=$col/20;   
      
    for($i=0;$i<$col_pages;$i++)   
    {   
        $page=$i.".html";   
        $url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat.$page;   
      
        while ($data = file_get_contents($url)) {   
            #$data = iconv(’utf-8?, ‘cp1251?, $data);   
            preg_match_all($yc_pat, $data, $o1, PREG_SET_ORDER);   
            foreach ($o1 as $o) echo "".$o[1]."<br>"; flush();   
            preg_match($np_pat, $data, $o2);   
            $url = ($o2 ? $o2[1]:FALSE);   
      
            sleep($delay);   
        }   
    }   
    ?>  
    

    Вот это работает.
     
  4. Skie

    Skie Постоялец

    Регистр.:
    17 мар 2008
    Сообщения:
    110
    Симпатии:
    23
    Есть онлайн сервис, правда выдает урлы а не ссылки
    http://promopark.ru/tools/yaca.php
    бесплатно, но надо регистрироваться
     
  5. saidxxx

    saidxxx

    Регистр.:
    6 фев 2007
    Сообщения:
    496
    Симпатии:
    154
    Давно пользуюсь - работает корректно
    PHP:
    <?php
    set_time_limit
    (0);
    $delay '5';
    $cat "/Employment/";
    $base 'http://pda.yaca.yandex.ru/yca/tungrp/cat/';
    $url $base.$cat;
    $np_pat '~"_self" href="([^\"]+)"><font color="#333333">[^<]+</font></a></p>~i';
    $yc_pat '~"_blank" class="title" href="([^\"]+)" onclick~i';
    while (
    $url)
    {
        
    $data file_get_contents($url);
        
    preg_match_all($yc_pat$data$o1PREG_SET_ORDER);
        foreach (
    $o1 as $o)
        if (
    preg_match("~/$~",$o[1])) echo $o[1]."\n";
        
    preg_match($np_pat$data$o2);
        
    $url = ($o2 $base.$cat.$o2[1]:0);
        
    sleep(rand(1,$delay));
        
      
    }
    ?>
     
Статус темы:
Закрыта.