Граббер HTML

lupen · 14 Авг 2007

А есть какой нибудь коммерческий HTML grabber, ну типа скрипта RSS Media Grabber ???

JaffaR · 10 Мар 2008

О грабберах

Тема для меня достаточно интерсна, готов к дискусии. Но для начала хочется выяснить:
- если здесь (в теме или на сайте) спецы по разработке систем "грабинга"?
- возможно используются наработанные скрипты (опробованно-отлаженные, а не разовая работа.... хотя и такие я думаю будут представлять ценность)?
- каков ориентировочно (обзорно) материал, подвергающийся грабингу?

... пока кроме RSS2BLOG подобного практически не встречал, но это несколько не то..... ведь тут только инфа с ленты инклудится в блог..... а мне интересна система получения структуированной информации без поддержки и использования RSS

bumer3 · 10 Мар 2008

Даже если есть HTML grabber то его во все ситуации он не сможет покрыть...

Принцип грабинга.
- Получение страници
- Анализ получения того что нужно из нее.

Как получить страницу?
помимо функции file_get_contents
Еще можно использовать следующий код, который будет работать в гораздо больших ситуациях.

PHP:

function get_content($hostname, $path) 
{
    $line = "";
    $fp = fsockopen($hostname, 80, $errno, $errstr, 30);
    if (!$fp) exit;
    else
    {
        $headers = "GET $path HTTP/1.1\r\n";
        $headers .= "Host: $hostname\r\n";
        $headers .= "Connection: Close\r\n\r\n";
        fwrite($fp, $headers);
        while (!feof($fp))
        {
            $line .= fgets($fp, 1024);
        }
        fclose($fp);
        return $line;
    }
}

Пример использования:

PHP:

$source = get_content('www.weather.com', '/index.php');

Как анализировать страницу?
Для этого используем функции
preg_match
preg_match_all
preg_replace
str_replace
и тому подобные. Но чтобы ими пользоваться нужно разобраться с Регулярными выражениями.

+ Даже если вы найдете скрипт грабера без этих знаний у вас врятли получится приспособить его к более сложным задачам

Лично я использую этот метод для загрузки результатов поиска из поисковика и погоды с weather.com

Теоритически таким способом можно грабить любою страничку и даже там где информация имеет разный дизайн (все зависит от того насколько правильно и универсально написат регулярное выражение)

JaffaR · 14 Мар 2008

bumer3 написал(а):
....
Лично я использую этот метод для загрузки результатов поиска из поисковика и погоды с weather.com

(заинтересованно) а можно примеры использования в описанных случаях? насколько проблематично составлять те или иные регулярки? в каком виде получаются результаты?

softsp · 31 Мар 2008

bumer3 написал(а):
Даже если есть HTML grabber то его во все ситуации он не сможет покрыть...

Принцип грабинга.
- Получение страници
- Анализ получения того что нужно из нее.

Как получить страницу?
помимо функции file_get_contents
Еще можно использовать следующий код, который будет работать в гораздо больших ситуациях.

PHP:

function get_content($hostname, $path) { $line = ""; $fp = fsockopen($hostname, 80, $errno, $errstr, 30); if (!$fp) exit; else { $headers = "GET $path HTTP/1.1\r\n"; $headers .= "Host: $hostname\r\n"; $headers .= "Connection: Close\r\n\r\n"; fwrite($fp, $headers); while (!feof($fp)) { $line .= fgets($fp, 1024); } fclose($fp); return $line; } }

Пример использования:

PHP:

$source = get_content('www.weather.com', '/index.php');

не могу получить результат по вышеуказанному коду, пишет

Fatal error: Maximum execution time of 30 seconds exceeded in C:\NetServer\www\pr1\3.php on line 15

15 строка в файле

PHP:

$source = get_content('www.weather.com', '/index.php');

Vovochka · 4 Апр 2008

попробуй вытереть www
А вообще я сам использую точно такой же граббер. Самые широкие настройки имею)

Leo.Gen.Tr · 7 Апр 2008

difour написал(а):
сорри, у мну нет времени подшаманивать, я тебе идею подкинул как сделать

и если хочешь автозамену, то для этого посмотри str_replace.

Тебе прям ТЗ написали. Надо ответить:
Смогу. От 300$

Граббер HTML

lupen

Создатель

JaffaR

Создатель

bumer3

Постоялец

JaffaR

Создатель

softsp

Постоялец

Vovochka

Создатель

Leo.Gen.Tr

Читатель