[Ищу] Парсер яндекс рефератов

monia · 18 Окт 2009

Нужен парсер вот этого чуда _http://vesna.yandex.ru Видел один, который валяется в паблике, тот, что отправляет контент на мыло - немного не то. Хотелось бы, чтобы парсил сразу много статей и сохранял все в текстовый файл. Никто не встречал?

ZCFD · 18 Окт 2009

так а что там парсить то ?
у меня такое было в спамере ЖЖ

грубишь страницу , и парсишь ? Защиты там никакой, банов никаких

Готового скрипта не видел, но пишется такое 10 минут.

monia · 18 Окт 2009

ZCFD написал(а):
так а что там парсить то ?
у меня такое было в спамере ЖЖ
грубишь страницу , и парсишь ? Защиты там никакой, банов никаких
Готового скрипта не видел, но пишется такое 10 минут.

не напишешь?

кстати, а хуман может здесь как-нить помочь?

ZCFD · 18 Окт 2009

хуман может помочь , хз только зачем он тут

коммерческие предложения в личку

технические вопросы сюда
=)

monia · 20 Окт 2009

ZCFD написал(а):
...технические вопросы сюда
=)

ок, тогда посмотри вот этот скриптец, почему-то на денвере выдает ошибку

<?php
$site = file_get_contents("http://referat.yandex.ru/astronomy.xml");
#меняешь здесь astronomy.xml на нужный тебе(посмотреть их можно на главной, там ссылки будут на разделы)
preg_match("/margin-left:0;\">(.*)<\/h1>/i", $site, $title);
preg_match_all("/<p>(.*)<\/p>/i", $site, $text);
$fp = fopen($title[1]."txt", "w");
fwrite ($fp, implode("\n",$text[1]));
fclose($fp);
?>

по идее должен сохранять контент в текстовые файлы

ZCFD · 20 Окт 2009

PHP:

<?php
$site = file_get_contents("http://referat.yandex.ru/astronomy.xml");
#меняешь здесь astronomy.xml на нужный тебе(посмотреть их можно на главной, там ссылки будут на разделы) 
preg_match("/margin-left:0;\">(.*)<\/h1>/i", $site, $title);
$title[1]=str_replace(':','-',$title[1]);
$title[1]=str_replace('?','-',$title[1]);
 preg_match_all("/<p>(.*)<\/p>/i", $site, $text); 
$fp = fopen($title[1]."txt", "w"); 
fwrite ($fp, implode("\n",$text[1]));
 fclose($fp);
?>

на будующее пиши что за ошибки, а еще лучше читай что тебе пишет интерпритатор, просветишься

LEXAlForpostl · 27 Окт 2009

Да, только зачём?
Яндекс всё равно в бан выкенет это всё.
Тем более АГС-17 сейчас шерудит.

Hilo · 27 Окт 2009

Где-то на форуме откопал непоню уже где.
PHP-код

PHP:

<?
// Обновление 14.06.2009
// Использование скрипта - запускаем его http://путь_к_файлу?count=количество_обращений_к_серваку
header("Content-Type: text/html; charset=windows-1251");

$count = $_GET['count'];
$i=1;
$link = 'http://vesna.yandex.ru/estetica.xml'; // Откуда будем брать текст

echo "Задано ".$count." обращений к серверу Яндекса. Поехали...";

while ($i<=$count){
$content = file_get_contents($link);
preg_match_all('#<div.*?>(.*?)</div>#is', $content, $text);
$text = preg_replace('#<h1.*?</h1>#', '', $text[1][4]);
$text = preg_replace('#<h2>.*?</h2>#', '', $text);
$text = preg_replace('#<p>#', '', $text);
$text = preg_replace('#</p>#', '', $text);
$text = preg_replace('#\n#', '', $text);
$f = fopen("text.txt","a+");
fwrite($f, $text);
fwrite($f, "\r \n");
fclose($f);
$i++;
}

echo 'Готово';
?>

vaa008 · 28 Окт 2009

monia написал(а):
Нужен парсер вот этого чуда _http://vesna.yandex.ru Видел один, который валяется в паблике, тот, что отправляет контент на мыло - немного не то. Хотелось бы, чтобы парсил сразу много статей и сохранял все в текстовый файл. Никто не встречал?

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

[Ищу] Парсер яндекс рефератов

monia

Гуру форума

ZCFD

Мой дом здесь!

monia

Гуру форума

ZCFD

Мой дом здесь!

monia

Гуру форума

ZCFD

Мой дом здесь!

LEXAlForpostl

Мой дом здесь!

Hilo

Хранитель порядка

vaa008

Гуру форума