Парсер для текста.

Тема в разделе "Вопросы новичков", создана пользователем Uglik, 22 авг 2009.

Статус темы:
Закрыта.
  1. Uglik

    Uglik

    Регистр.:
    8 окт 2008
    Сообщения:
    350
    Симпатии:
    14
    Нашел парсер для текста с vesna.yandex.ru
    Вот собственно и сам скрипт
    PHP:
    <?
    // Обновление 14.06.2009
    // Использование скрипта - запускаем его http://путь_к_файлу?count=количество_обращений_к_серваку
    header("Content-Type: text/html; charset=windows-1251");

    $count $_GET['count'];
    $i=1;
    $link 'http://vesna.yandex.ru/estetica.xml'// Откуда будем брать текст

    echo "Задано ".$count." обращений к серверу Яндекса. Поехали...";

    while (
    $i<=$count){
    $content file_get_contents($link);
    preg_match_all('#<div.*?>(.*?)</div>#is'$content$text);
    $text preg_replace('#<h1.*?</h1>#'''$text[1][4]);
    $text preg_replace('#<h2>.*?</h2>#'''$text);
    $text preg_replace('#<p>#'''$text);
    $text preg_replace('#</p>#'''$text);
    $text preg_replace('#\n#'''$text);
    $f fopen("text.txt","a+");
    fwrite($f$text);
    fwrite($f"\r \n");
    fclose($f);
    $i++;
    }

    echo 
    'Готово';
    ?> 
    Источник http://aboutdoorways.pp.ua/2009/06/blog-post.html

    Парсит довольна шустро и быстро. Если кто нить доработает что бы парсил тематический текст и с разных источников, попрошу вылаживать в этой ветке. Просто в ручную текстовку собирать как то не очень.

    Что скажите по поваду такого варианта или все таки лучше заказать рерайт или самому писать. А некоторые и книги сканят.
     
  2. Drakowa007

    Drakowa007 Создатель

    Регистр.:
    3 дек 2008
    Сообщения:
    46
    Симпатии:
    1
    Парсером оно удобней, но рерайтом эфективней
     
  3. Uglik

    Uglik

    Регистр.:
    8 окт 2008
    Сообщения:
    350
    Симпатии:
    14
    На сколько эфективно? Если покупать рерайт, окупится ли все это? И сколько вообще стоит рерайт качественный рерайт, например текста на 2-3 мб
     
  4. arch14

    arch14

    Регистр.:
    7 июн 2009
    Сообщения:
    373
    Симпатии:
    186
    $0.5-1 за 1к знаков без пробелов - это самые низкие цены. Нормальный рерайтер берет $1,5-2 за 1к знаков, хотя при большом заказе должно быть дешевле
     
  5. Uglik

    Uglik

    Регистр.:
    8 окт 2008
    Сообщения:
    350
    Симпатии:
    14
    А где исходник рерайта брать...или копирайтер сам будет всю инфу находить ему только тематику дать и все. И тогда получается этот текст можно не синонимизировать и не чего сним не делать, и даже в доргене марково отключить и в чистом виде подавать? Но есть лы смысол во всем этом если доры и с таким той текстовкой что я напарсил норм лезут в индекс. Только живут не очень долго. На срок жизни повлияет рерат текста?
     
  6. TAX[I]

    TAX[I]

    Регистр.:
    21 окт 2008
    Сообщения:
    176
    Симпатии:
    28
    При хорошей структуре дора и при рерайте текста у мну доры живут по 7 месяцев (дальше просто не смотрел), но траф ~100 уников с них:)
     
    Uglik нравится это.
  7. Hilo

    Hilo

    Moderator
    Регистр.:
    31 мар 2008
    Сообщения:
    911
    Симпатии:
    562
    В чём заключается в твоём понимании структура дора.
    Какая она?
     
  8. SergeiSP

    SergeiSP

    Регистр.:
    13 фев 2007
    Сообщения:
    375
    Симпатии:
    115
    Для яндекса нужен уникальный качественный текст, но никаких гарантий, что дор будет долго жить. Вообще, мое такое мнение, для доров текст можно любой уникализированный брать. Для гугла хватает любого спарсенного текста прогнанного через огромную базу синонимайзера. На выходе слабо читаемый, но синтаксически верный текст и уникальность очень высокая. Такой расклад лучше цепей Маркова получается. В гугле дор жить может сколько угодно, мои доры в гугле уже больше года висят и ничего, траф, конечно с них сейчас совсем никакой, оно и понятно, выдачу уже профукали, но в индекси висят, можно на биржу ссылки с них продавать, тем паче, что там каждый дор с пр.Покупать текст для доров - не очень вразумительное вложение, дор он на то и дор, не сателит же.
     
    Uglik нравится это.
  9. starche

    starche

    Регистр.:
    5 янв 2009
    Сообщения:
    299
    Симпатии:
    45
    А если текст для дайтинг кеев парсить? или все же лучше РБ?
     
  10. TAX[I]

    TAX[I]

    Регистр.:
    21 окт 2008
    Сообщения:
    176
    Симпатии:
    28
    Представте, что клепаете ГС, а не доры... Тоесть больше внимания уделите шаблону, синонимизируйте текст, ставте теги h1, h2, h3... и тд, чем меньше процент кеев в тексте - тем дольше дор продержиться... Ну а дальше сами придумывайте, тут много чего можно сделать
     
Статус темы:
Закрыта.