[Ищу] Парсер яндекс рефератов

Статус
В этой теме нельзя размещать новые ответы.

monia

Гуру форума
Регистрация
27 Июл 2007
Сообщения
419
Реакции
70
Нужен парсер вот этого чуда _http://vesna.yandex.ru Видел один, который валяется в паблике, тот, что отправляет контент на мыло - немного не то. Хотелось бы, чтобы парсил сразу много статей и сохранял все в текстовый файл. Никто не встречал?:)
 
так а что там парсить то ?
у меня такое было в спамере ЖЖ

грубишь страницу , и парсишь ? Защиты там никакой, банов никаких

Готового скрипта не видел, но пишется такое 10 минут.
 
так а что там парсить то ?
у меня такое было в спамере ЖЖ
грубишь страницу , и парсишь ? Защиты там никакой, банов никаких
Готового скрипта не видел, но пишется такое 10 минут.

не напишешь?:) кстати, а хуман может здесь как-нить помочь?
 
хуман может помочь , хз только зачем он тут

коммерческие предложения в личку

технические вопросы сюда
=)
 
...технические вопросы сюда
=)
ок, тогда посмотри вот этот скриптец, почему-то на денвере выдает ошибку
<?php
$site = file_get_contents("http://referat.yandex.ru/astronomy.xml");
#меняешь здесь astronomy.xml на нужный тебе(посмотреть их можно на главной, там ссылки будут на разделы)
preg_match("/margin-left:0;\">(.*)<\/h1>/i", $site, $title);
preg_match_all("/<p>(.*)<\/p>/i", $site, $text);
$fp = fopen($title[1]."txt", "w");
fwrite ($fp, implode("\n",$text[1]));
fclose($fp);
?>
по идее должен сохранять контент в текстовые файлы
 
PHP:
<?php
$site = file_get_contents("http://referat.yandex.ru/astronomy.xml");
#меняешь здесь astronomy.xml на нужный тебе(посмотреть их можно на главной, там ссылки будут на разделы) 
preg_match("/margin-left:0;\">(.*)<\/h1>/i", $site, $title);
$title[1]=str_replace(':','-',$title[1]);
$title[1]=str_replace('?','-',$title[1]);
 preg_match_all("/<p>(.*)<\/p>/i", $site, $text); 
$fp = fopen($title[1]."txt", "w"); 
fwrite ($fp, implode("\n",$text[1]));
 fclose($fp);
?>

на будующее пиши что за ошибки, а еще лучше читай что тебе пишет интерпритатор, просветишься
 
Да, только зачём?
Яндекс всё равно в бан выкенет это всё.
Тем более АГС-17 сейчас шерудит. :)
 
Где-то на форуме откопал непоню уже где.
PHP-код
PHP:
<?
// Обновление 14.06.2009
// Использование скрипта - запускаем его http://путь_к_файлу?count=количество_обращений_к_серваку
header("Content-Type: text/html; charset=windows-1251");

$count = $_GET['count'];
$i=1;
$link = 'http://vesna.yandex.ru/estetica.xml'; // Откуда будем брать текст

echo "Задано ".$count." обращений к серверу Яндекса. Поехали...";

while ($i<=$count){
$content = file_get_contents($link);
preg_match_all('#<div.*?>(.*?)</div>#is', $content, $text);
$text = preg_replace('#<h1.*?</h1>#', '', $text[1][4]);
$text = preg_replace('#<h2>.*?</h2>#', '', $text);
$text = preg_replace('#<p>#', '', $text);
$text = preg_replace('#</p>#', '', $text);
$text = preg_replace('#\n#', '', $text);
$f = fopen("text.txt","a+");
fwrite($f, $text);
fwrite($f, "\r \n");
fclose($f);
$i++;
}

echo 'Готово';
?>
 
Нужен парсер вот этого чуда _http://vesna.yandex.ru Видел один, который валяется в паблике, тот, что отправляет контент на мыло - немного не то. Хотелось бы, чтобы парсил сразу много статей и сохранял все в текстовый файл. Никто не встречал?:)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху