Граббинг сайтов на питоне

Тема в разделе "PHP", создана пользователем 212, 17 дек 2009.

Статус темы:
Закрыта.
Модераторы: latteo
  1. 212

    212 Создатель

    Регистр.:
    31 авг 2007
    Сообщения:
    39
    Симпатии:
    0
    Граббинг сайтов со статичными html

    вот этот код чудесно парсит пхп а вот ка сайты на питоне грабануть??
    кто нить сталкивался??
    урлы типа
    site.ru?pid=12
    потом пид уходит и остаються ток
    site.ru/index/
    site.ru/index/1/
    site.ru/text/... и т.п.
    :bc:
    PHP:
    $handle fopen('http://site.ru/index.php?act=' $act '&CODE=' $CODE '&f=' $f '&t=' $t '&view=' $view '&showuser=' $showuser'r');  
    while (!
    feof($handle))  
    {  
    $html .= fread($handle4096);  
    }  
    $begin '<html>';  
    $end '</html>';  
    $beginloc strpos($html$begin) + strlen($begin);  
    $endloc strpos($html$end);  
    $html substr($html$beginloc$endloc $beginloc); 
    $html=str_replace("http://site.ru/""http://site2.com/"$html); 
    echo 
    $html
    echo 
    "</html>"
     
  2. saen

    saen

    Регистр.:
    6 авг 2006
    Сообщения:
    756
    Симпатии:
    129
    а причем тут питон вообще? ссылки типа site.ru/index/1/ - это mod_rewrite в .htaccess также известный как ЧПУ(человеко-понятный урл).
     
  3. swer

    swer

    Регистр.:
    15 июн 2008
    Сообщения:
    308
    Симпатии:
    38
    То на чем написан сайт не мешает грабит его,ну конечно кроме flash но это уже не сайт(ИМХО).Так что тут скорее всего дело в стыковке рук и 5-ой точки.
     
  4. 212

    212 Создатель

    Регистр.:
    31 авг 2007
    Сообщения:
    39
    Симпатии:
    0
    Я НЕ просил делать предположений!!!
    Так что стыкуй свою голову с пятой точкой прежде чем отписывать!!:mad:
     
  5. phillip

    phillip

    Регистр.:
    4 сен 2007
    Сообщения:
    413
    Симпатии:
    15
    из названия вообще не очень понятно, что имеется ввиду. То ли сами жертвы парсинга написаны на питоне, то ли используя питон надо распарсить.... казнить нельзя помиловать

    если имеешь ввиду что сайты-жертвы на питоне, то парсь как обычно. в браузер конечному пользователю выдается только хтмл, так что на питоне он или на пхп- не имеет никакого значения

    если надо распарсить, используя питон- то написал не в тот раздел :smmne:
     
  6. swer

    swer

    Регистр.:
    15 июн 2008
    Сообщения:
    308
    Симпатии:
    38
    Многоуважаемый то что вы тут(на этом форума) написали уже говорит что вы
    иначе думали бы своим варевом.
    пс.Развивайте чувство юмора:)
     
  7. 212

    212 Создатель

    Регистр.:
    31 авг 2007
    Сообщения:
    39
    Симпатии:
    0
    я просил помощи а не предположения о моём телосложении...
    почему?? там же написано.. граббинг... НЕ граббер а граббинг.. )
    ну может я конечно не совсем адекватно выразился... ((
    я просто знаю точно что сайт на питоне.. (я с ним не знаком (( )а вот как "статичные" урлы сграбить незнаю... потому и спрашиваю... мод рерайт там или что это в принципе не так важно - урлы то стат
     
  8. saen

    saen

    Регистр.:
    6 авг 2006
    Сообщения:
    756
    Симпатии:
    129
    Нет такого понятия "статичный урл". есть статичная страница. Вы лучше компьютерной грамотности наберитесь слегка, прежде чем задавать вопросы.
     
    swer нравится это.
  9. 212

    212 Создатель

    Регистр.:
    31 авг 2007
    Сообщения:
    39
    Симпатии:
    0
    Да... помощи от вас "уважаемые" никак видать недождёшься.. :(

    Вы хоть прочитали в какой раздел зашли... или так.. просто заняться нечем?!...
    зачем вместо помощи палемику о моей грамотности и физических недостатках разводить??!!

    Модер .. убейте тему... а то два этих клоуна подеруться в споре кто лучше мне нагрубил
     
  10. saen

    saen

    Регистр.:
    6 авг 2006
    Сообщения:
    756
    Симпатии:
    129
    Ты сам не знаешь чего хочешь да еще и обижаешься на конструктивную критику. Тебе дали пищу для размышления, для это и существует форум. А если ты хочешь чтобы за тебя думали и делали, иди на фриланс и плати.
     
    swer нравится это.
Статус темы:
Закрыта.