Парсер для текста.

Статус
В этой теме нельзя размещать новые ответы.

Uglik

Старатель
Регистрация
8 Окт 2008
Сообщения
350
Реакции
14
Нашел парсер для текста с
Вот собственно и сам скрипт
PHP:
<?
// Обновление 14.06.2009
// Использование скрипта - запускаем его http://путь_к_файлу?count=количество_обращений_к_серваку
header("Content-Type: text/html; charset=windows-1251");

$count = $_GET['count'];
$i=1;
$link = 'http://vesna.yandex.ru/estetica.xml'; // Откуда будем брать текст

echo "Задано ".$count." обращений к серверу Яндекса. Поехали...";

while ($i<=$count){
$content = file_get_contents($link);
preg_match_all('#<div.*?>(.*?)</div>#is', $content, $text);
$text = preg_replace('#<h1.*?</h1>#', '', $text[1][4]);
$text = preg_replace('#<h2>.*?</h2>#', '', $text);
$text = preg_replace('#<p>#', '', $text);
$text = preg_replace('#</p>#', '', $text);
$text = preg_replace('#\n#', '', $text);
$f = fopen("text.txt","a+");
fwrite($f, $text);
fwrite($f, "\r \n");
fclose($f);
$i++;
}

echo 'Готово';
?>
Источник

Парсит довольна шустро и быстро. Если кто нить доработает что бы парсил тематический текст и с разных источников, попрошу вылаживать в этой ветке. Просто в ручную текстовку собирать как то не очень.

Что скажите по поваду такого варианта или все таки лучше заказать рерайт или самому писать. А некоторые и книги сканят.
 
Парсером оно удобней, но рерайтом эфективней
На сколько эфективно? Если покупать рерайт, окупится ли все это? И сколько вообще стоит рерайт качественный рерайт, например текста на 2-3 мб
 
$0.5-1 за 1к знаков без пробелов - это самые низкие цены. Нормальный рерайтер берет $1,5-2 за 1к знаков, хотя при большом заказе должно быть дешевле
 
$0.5-1 за 1к знаков без пробелов - это самые низкие цены. Нормальный рерайтер берет $1,5-2 за 1к знаков, хотя при большом заказе должно быть дешевле
А где исходник рерайта брать...или копирайтер сам будет всю инфу находить ему только тематику дать и все. И тогда получается этот текст можно не синонимизировать и не чего сним не делать, и даже в доргене марково отключить и в чистом виде подавать? Но есть лы смысол во всем этом если доры и с таким той текстовкой что я напарсил норм лезут в индекс. Только живут не очень долго. На срок жизни повлияет рерат текста?
 
На срок жизни повлияет рерат текста?
При хорошей структуре дора и при рерайте текста у мну доры живут по 7 месяцев (дальше просто не смотрел), но траф ~100 уников с них:)
 
Для яндекса нужен уникальный качественный текст, но никаких гарантий, что дор будет долго жить. Вообще, мое такое мнение, для доров текст можно любой уникализированный брать. Для гугла хватает любого спарсенного текста прогнанного через огромную базу синонимайзера. На выходе слабо читаемый, но синтаксически верный текст и уникальность очень высокая. Такой расклад лучше цепей Маркова получается. В гугле дор жить может сколько угодно, мои доры в гугле уже больше года висят и ничего, траф, конечно с них сейчас совсем никакой, оно и понятно, выдачу уже профукали, но в индекси висят, можно на биржу ссылки с них продавать, тем паче, что там каждый дор с пр.Покупать текст для доров - не очень вразумительное вложение, дор он на то и дор, не сателит же.
 
А если текст для дайтинг кеев парсить? или все же лучше РБ?
 
В чём заключается в твоём понимании структура дора.
Какая она?
Представте, что клепаете ГС, а не доры... Тоесть больше внимания уделите шаблону, синонимизируйте текст, ставте теги h1, h2, h3... и тд, чем меньше процент кеев в тексте - тем дольше дор продержиться... Ну а дальше сами придумывайте, тут много чего можно сделать
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху