[Ищу] Парсер текста ??

Тема в разделе "SEO Скрипты", создана пользователем XSlaid, 19 окт 2006.

Статус темы:
Закрыта.
  1. XSlaid

    XSlaid Постоялец

    Регистр.:
    1 сен 2006
    Сообщения:
    107
    Симпатии:
    15
    Помогите с парсером текста, а то сколка не ищу нахожу толька парсеры для ключевых слов но нигде не вижу чтобы текст парсил.
    Тут на форуме видел прогу для Яндекса, а для MSN или Google есть у кого?
     
  2. morze

    morze Постоялец

    Регистр.:
    9 окт 2006
    Сообщения:
    74
    Симпатии:
    46
    Грабит сниппеты по кею с гугла, чистит их и форматирует в текст.
    http://i4x4.dom.raid.ru/snipperg.rar
     
    XSlaid нравится это.
  3. Granat

    Granat Создатель

    Регистр.:
    3 апр 2006
    Сообщения:
    26
    Симпатии:
    5
    а можно по подробнее что это такое?
     
  4. Юрец

    Юрец

    Регистр.:
    20 авг 2006
    Сообщения:
    152
    Симпатии:
    21
    Ну ты ДАЕШЬ! :))))
    ВКЛЮЧИ МОЗГИ, ЮЗАЙ ПОИСК!
    ОТ КОРКИ ДО КОРКИ УМАХФОРУМ И БЛОГ ГРИНА Прочти!
    И будет тебе ШАСТЬЕ!
     
  5. morze

    morze Постоялец

    Регистр.:
    9 окт 2006
    Сообщения:
    74
    Симпатии:
    46
    Десктопная программа которая парсит сниппеты серпа google по ключевому слову.
    Может использоваться для создания релевантного текста при генерировании дорвеев.

    Термины поисковой оптимизации - Перейти по ссылке
    Парсить - автоматически обрабатывать (разбирать) с целью получения нужных данных. Парсить можно выдачу на предмет позиций сайта, можно страницы на предмет нахождения там нужной ссылки и т.п. Парсер — это программа, которая и обеспечивает эту автообработку.
    Сниппет (от англ. snippet) — небольшие кусочки текста найденной поисковой машиной страницы сайта, которые показываются в результатах поиска.
    СЕРП - страница результатов поиска, выдаваемая поисковой системой по запросу пользователя.
    Релевантность - оценка страницы, рассчитываемая каждой машиной поиска согласно специальному алгоритму. Релевантность определяет, насколько информация в HTML-документе соответствует запросу пользователя, выполняющего поиск.
    Дорвей - автоматически созданная страница, насыщенная ключевыми словами, перенаправляющая посетителей на другие страницы. Сама по себе не представляет интереса для пользователя, считается спамдексингом, засоряет интернет и выдачу поисковой машины, за что последние накладывают на такие страницы бан и удалаяют из своего индекса.
     
  6. XSlaid

    XSlaid Постоялец

    Регистр.:
    1 сен 2006
    Сообщения:
    107
    Симпатии:
    15
    Спасибо, будем пробовать работать...
     
  7. maks3000

    maks3000 Прохожие

    попробуй web data extracto rv4.3
    У нее есть настройки разные. Думаю тебе подойдет
     
  8. diez

    diez

    Регистр.:
    1 ноя 2006
    Сообщения:
    184
    Симпатии:
    59
    а на php скрипта такого не завалялось ни у кого?
     
  9. AFrost

    AFrost Создатель

    Регистр.:
    7 сен 2006
    Сообщения:
    39
    Симпатии:
    20
    Код:
    function striptext($document)
        {
            
            // I didn't use preg eval (//e) since that is only available in PHP 4.0.
            // so, list your entities one by one here. I included some of the
            // more common ones.
                                    
            $search = array("'<script[^>]*?>.*?</script>'si",    // strip out javascript
                            "'<[\/\!]*?[^<>]*?>'si",            // strip out html tags
                            "'([\r\n])[\s]+'",                    // strip out white space
                            "'&(quot|#34|#034|#x22);'i",        // replace html entities
                            "'&(amp|#38|#038|#x26);'i",            // added hexadecimal values
                            "'&(lt|#60|#060|#x3c);'i",
                            "'&(gt|#62|#062|#x3e);'i",
                            "'&(nbsp|#160|#xa0);'i",
                            "'&(iexcl|#161);'i",
                            "'&(cent|#162);'i",
                            "'&(pound|#163);'i",
                            "'&(copy|#169);'i",
                            "'&(reg|#174);'i",
                            "'&(deg|#176);'i",
                            "'&(#39|#039|#x27);'",
                            "'&(euro|#8364);'i",                // europe
                            "'&a(uml|UML);'",                    // german
                            "'&o(uml|UML);'",
                            "'&u(uml|UML);'",
                            "'&A(uml|UML);'",
                            "'&O(uml|UML);'",
                            "'&U(uml|UML);'",
                            "'&szlig;'i",
                            "'/{.*?}/si'",                        //strip {...} tags не работает
                            "'<a href'",
                            );
            $replace = array(    "",
                                "",
                                "\\1",
                                "\"",
                                "&",
                                "<",
                                ">",
                                " ",
                                chr(161),
                                chr(162),
                                chr(163),
                                chr(169),
                                chr(174),
                                chr(176),
                                chr(39),
                                chr(128),
                                "д",
                                "ц",
                                "ь",
                                "Д",
                                "Ц",
                                "Ь",
                                "Я",
                                " ",
                                " ",
                            );
                        
            $text = preg_replace($search,$replace,$document);
                                    
            return $text;
        } 
    
    
    Это от snoopy кажется
     
    View, genjak и diez нравится это.
  10. tomcat

    tomcat Постоялец

    Регистр.:
    14 сен 2006
    Сообщения:
    64
    Симпатии:
    29
    Я когда-то писал сам на пхп... скрипт дергает урлы с гугля по заданным кивордам, затем ходит по этим урлам и грабит с них текст, чистит его от всякой шняги, ищет и удаляет уникальные слова и выдает получившееся...
    только найти не могу.... :D на каком-то из серваков лежит, а времени нет все обшаривать...
    найду - выложу, но там писать-то при минимальных знаниях пхп - полдня.
     
Статус темы:
Закрыта.