Граббинг сайтов на питоне

Статус
В этой теме нельзя размещать новые ответы.
на критику я нормально реагирую... а вот на выпады в мой адрес вполне адекватно мне кажеться..
пищи вообще не увидел... узнал только что руки у меня из жопы растут (в зеркало то не видно) спасибо есть добрые люди подсказали..

swer а ты чё ему в каждом сообщении спасибки говоришь...??? карму набиваешь?
 
на критику я нормально реагирую... а вот на выпады в мой адрес вполне адекватно мне кажеться..
пищи вообще не увидел... узнал только что руки у меня из жопы растут (в зеркало то не видно) спасибо есть добрые люди подсказали..

swer а ты чё ему в каждом сообщении спасибки говоришь...??? карму набиваешь?
Назвать человека клоуном ты ссчитаешь нормальной реакцией? тебе ясно дали понять следущее:
1) Не важно на каком алгоритмическом языке написан сайт, в конечном счете броузер выдает пользователю сгенерированную html-страницу. А Какую информацию из этого кода вытянуть и каким способом, это уже другой вопрос. Если хочешь реализовать это на питоне, тебе не в этот раздел.
2) Граббинг и граббер - одно и то же.
3) Нет такого понятия "статичный урл", есть статичная страница.
Еще раз отмечу что за тебя тут никто думать не будет. Составь правильное ТЗ и получишь правильный ответ.
 
Назвать человека клоуном ты ссчитаешь нормальной реакцией? тебе ясно дали понять следущее:
1) Не важно на каком алгоритмическом языке написан сайт, в конечном счете броузер выдает пользователю сгенерированную html-страницу. А Какую информацию из этого кода вытянуть и каким способом, это уже другой вопрос. Если хочешь реализовать это на питоне, тебе не в этот раздел.
2) Граббинг и граббер - одно и то же.
3) Нет такого понятия "статичный урл", есть статичная страница.
Еще раз отмечу что за тебя тут никто думать не будет. Составь правильное ТЗ и получишь правильный ответ.
1)клоун это нормально!!
swer написал(а):
Так что тут скорее всего дело в стыковке рук и 5-ой точки.
А мне как после этого хлеб руками брать :ak:
2) Для просмотра ссылки Войди или Зарегистрируйся
3) ну тут я дал внатуре маху ((
Ладно если бум продолжать палемику ни к чему хорошему не прийдём!
звиняйте ежли кого.. того .. :ah:
суть в чём... этот скрипт можно переделать для нормального парсинга статичных HTML страниц?? думаю можно.. но как реализовать непонимаю..
PHP:
$handle = fopen('http://site.ru/index.php?act=' . $act . '&CODE=' . $CODE . '&f=' . $f . '&t=' . $t . '&view=' . $view . '&showuser=' . $showuser, 'r');
как сюда статику воткнуть?!
на пхп боле менее понятно.. пременная page.. переменная act.. и т.д. а если отображаеться с ЧПУ как папка или файл.. как прописать чтоб парсер переходил :nezn:
 
PHP:
$handle = fopen('http://site.ru/index.php?act=' . $act . '&CODE=' . $CODE . '&f=' . $f . '&t=' . $t . 
'&view=' . $view . '&showuser=' . $showuser, 'r');
В результате умозаключений удалось понять следующее.

1. У вас есть скрипт, написанный на пхп, который предназначен для граббинга сайтов (сайта?) с урлами
вида: Для просмотра ссылки Войди или Зарегистрируйся
Скрипт скорее всего заточен под конкретный сайт или конкретный движок, использующий ИМЕННО эти
параметры GET-запроса. Т.е. ИМЕННО ТАКИЕ урлы.

2. Вы хотите изменить скрипт для того чтобы он грабил сайты (сайт?) с урлами типа
Для просмотра ссылки Войди или Зарегистрируйся

3. Задача в такой постановке спомощью вашего скрипта не решаема, потому что в нем, судя по куску кода который вы привели, необходимо знать заранее структуру формирования линков сайта, который вы собираетесь грабить.

4. Также немного не ясно откуда в строчке кода, которую вы привели, берутся значения переменных.
Они известны заранее? Они получаются в результате парсинга ссылок?

5. Как уже сказали ранее, то на чем сделан сайт не имеет отношения к тому, какого вида урлы он
использует.

зы. Возможно понял что-то не правильно, а вообще правильная постановка задачи уже содержит в себе половину решения ;)
 
1) для всех сайтов на пхп без чпу ()
2) да
3),4) а что тут сложного (в начале скрипт полный)
nulled.ws &do=, &noquote=, p=..... 3минуты и все переменные известны!!
5) абсолютно согласен
 
Код который вы привели в первом посте открывает страницу по урлу, который собирается из известной структуры и переменных, которые видимо задаются где-то раньше, меняет в ней "http://site.ru/" на "http://site2.com/" и выводит результат. Всё.
Если вопрос в том, чтобы открыть дургой урл, так просто подставьте его.
PHP:
$handle = fopen('http://auto.lenta.ru/news/2009/12/18/snow/', 'r');
Если суть вопроса в том, что ссылки, которые были Для просмотра ссылки Войди или Зарегистрируйся становятся Для просмотра ссылки Войди или Зарегистрируйся, и вам это не нравится, то тогда вопрос - а какими вы хотите чтобы они были?
1) для всех сайтов на пхп без чпу ()
мы видимо друг друга не поняли.
 
нет... это практически полный парсер (в первом посте)
вот так он работает

teens4you.ru

:ah:

мне нужно чтоб при обращении к моему сайту Для просмотра ссылки Войди или Зарегистрируйся
вот это Для просмотра ссылки Войди или Зарегистрируйся парсилось и выдавалось как контент моего сайта как собсно в урле чуть выше с пхп
 
Тогда например можно сделать так:
На вашем сервере (на том, на который site.com ссылается) при помощи любого из подходов (mod_rewrite, 404 redirect итд.) делаете так, что при обращении к любой гадости типа
Для просмотра ссылки Войди или Зарегистрируйся открывается урл Для просмотра ссылки Войди или Зарегистрируйся
Вот пример как сделать через mod_rewrite
RewriteRule ^(.*)$ /index.php?params=$1
Суть в том, чтобы передать параметры запроса в вашему скрипту.
А в своем скрипте (в данном случае предполагается что он лежит в index.php) первую строчку меняете на
PHP:
$handle = fopen("http://site.ru/".$_GET['params'], "r");
зы. mod_rewrite не протестил, так как нет под рукой апача
 
мне нужно чтоб при обращении к моему сайту Для просмотра ссылки Войди или Зарегистрируйся
вот это Для просмотра ссылки Войди или Зарегистрируйся парсилось и выдавалось как контент моего сайта как собсно в урле чуть выше с пхп

Это очень фигово получится. При достаточной посещаемости будет огромная нагрузка на сервер + каждый раз парсить - это трафик исходящий\входящий + парсинг идет не моментально - опять нагрузка.

Думаю, стоит рассмотреть вариант парсинга сайта-донора по крону и забив этого всего в базу. А при обращении к вашему сайту из базы просто все это доставать. Урлы тут уж вы можете сделать какие вздумается (хоть такие же как и на site.ru) без потери производительности ;)
 
нет мы друг друга не понимаем
вот сайт донор nulled.ws
вот сайт грабитель novosti27.ru (работает)
с запросами типа 'forumdisplay.php?f=cp' и т.п. всё понятно
вот скрипт index.php
PHP:
<?
$handle = fopen('http://www.nulled.ws/index.php', 'r'); 
while (!feof($handle)) 
{ 
$html .= fread($handle, 4096); 
} 
$begin = '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">'; 
$end = '</html>'; 
$beginloc = strpos($html, $begin) + strlen($begin); 
$endloc = strpos($html, $end); 
echo '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">';
$html = substr($html, $beginloc, $endloc - $beginloc);
$html=str_replace("http://www.nulled.ws/", "http://novosti27.ru", $html);
$html=str_replace("http://nulled.ws/", "http://novosti27.ru", $html);
$html=str_replace("nulled_v4/misc/skin", "http://nulled.ws/nulled_v4/misc/skin", $html);
echo $html;
#echo "</html>";
?>
вот скрипт forumdisplay.php
PHP:
<?
$handle = fopen('http://www.nulled.ws/forumdisplay.php?f=' . $f . '&order=' . $order . '&page=' . $page . '&perfixid=' . $perfixid, 'r'); 
while (!feof($handle)) 
{ 
$html .= fread($handle, 4096); 
} 
$begin = '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">'; 
$end = '</html>'; 
$beginloc = strpos($html, $begin) + strlen($begin); 
$endloc = strpos($html, $end); 
echo '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">';
$html = substr($html, $beginloc, $endloc - $beginloc);
$html=str_replace("http://www.nulled.ws/", "http://novosti27.ru", $html);
$html=str_replace("http://nulled.ws/", "http://novosti27.ru", $html);
$html=str_replace("nulled_v4/misc/skin", "http://nulled.ws/nulled_v4/misc/skin", $html);
echo $html;
#echo "</html>";
?>
остальные делать не стал... итак наглядно
а теперь смотрим такой вариант
forum.byw.ru/futbol/19048-pyzh_on-line_-upovoinyi_top.html (тот же vbull)
тут все переменные не пропишешь ((
так вот как их запрашивать и выводить??
т.е. это нужно как то здесь прописать?!
$handle = fopen('http://www.nulled.ws/forumdisplay.php?f=' . $f . '&order=' . $order . '&page=' . $page . '&perfixid=' . $perfixid, 'r');
или как то по другому
возможно ли такое в принципе??
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху