Граббер HTML

Статус
В этой теме нельзя размещать новые ответы.
А есть какой нибудь коммерческий HTML grabber, ну типа скрипта RSS Media Grabber ???
 
О грабберах

Тема для меня достаточно интерсна, готов к дискусии. Но для начала хочется выяснить:
- если здесь (в теме или на сайте) спецы по разработке систем "грабинга"?
- возможно используются наработанные скрипты (опробованно-отлаженные, а не разовая работа.... хотя и такие я думаю будут представлять ценность)?
- каков ориентировочно (обзорно) материал, подвергающийся грабингу?

... пока кроме RSS2BLOG подобного практически не встречал, но это несколько не то..... ведь тут только инфа с ленты инклудится в блог..... а мне интересна система получения структуированной информации без поддержки и использования RSS
 
Даже если есть HTML grabber то его во все ситуации он не сможет покрыть...

Принцип грабинга.
- Получение страници
- Анализ получения того что нужно из нее.

Как получить страницу?
помимо функции file_get_contents
Еще можно использовать следующий код, который будет работать в гораздо больших ситуациях.

PHP:
function get_content($hostname, $path) 
{
    $line = "";
    $fp = fsockopen($hostname, 80, $errno, $errstr, 30);
    if (!$fp) exit;
    else
    {
        $headers = "GET $path HTTP/1.1\r\n";
        $headers .= "Host: $hostname\r\n";
        $headers .= "Connection: Close\r\n\r\n";
        fwrite($fp, $headers);
        while (!feof($fp))
        {
            $line .= fgets($fp, 1024);
        }
        fclose($fp);
        return $line;
    }
}
Пример использования:
PHP:
$source = get_content('www.weather.com', '/index.php');

Как анализировать страницу?
Для этого используем функции
preg_match
preg_match_all
preg_replace
str_replace

и тому подобные. Но чтобы ими пользоваться нужно разобраться с Регулярными выражениями.

+ Даже если вы найдете скрипт грабера без этих знаний у вас врятли получится приспособить его к более сложным задачам

Лично я использую этот метод для загрузки результатов поиска из поисковика и погоды с weather.com

Теоритически таким способом можно грабить любою страничку и даже там где информация имеет разный дизайн (все зависит от того насколько правильно и универсально написат регулярное выражение)
 
....
Лично я использую этот метод для загрузки результатов поиска из поисковика и погоды с weather.com

(заинтересованно) а можно примеры использования в описанных случаях? насколько проблематично составлять те или иные регулярки? в каком виде получаются результаты?
 
Даже если есть HTML grabber то его во все ситуации он не сможет покрыть...

Принцип грабинга.
- Получение страници
- Анализ получения того что нужно из нее.

Как получить страницу?
помимо функции file_get_contents
Еще можно использовать следующий код, который будет работать в гораздо больших ситуациях.

PHP:
function get_content($hostname, $path) 
{
    $line = "";
    $fp = fsockopen($hostname, 80, $errno, $errstr, 30);
    if (!$fp) exit;
    else
    {
        $headers = "GET $path HTTP/1.1\r\n";
        $headers .= "Host: $hostname\r\n";
        $headers .= "Connection: Close\r\n\r\n";
        fwrite($fp, $headers);
        while (!feof($fp))
        {
            $line .= fgets($fp, 1024);
        }
        fclose($fp);
        return $line;
    }
}
Пример использования:
PHP:
$source = get_content('www.weather.com', '/index.php');
не могу получить результат по вышеуказанному коду, пишет

Fatal error: Maximum execution time of 30 seconds exceeded in C:\NetServer\www\pr1\3.php on line 15

15 строка в файле
PHP:
$source = get_content('www.weather.com', '/index.php');
 
попробуй вытереть www
А вообще я сам использую точно такой же граббер. Самые широкие настройки имею)
 
  • Заблокирован
  • #17
сорри, у мну нет времени подшаманивать, я тебе идею подкинул как сделать

и если хочешь автозамену, то для этого посмотри str_replace.
Тебе прям ТЗ написали. Надо ответить:
Смогу. От 300$
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху