Парсеры и что с ними делать

Тема в разделе "Вопросы новичков", создана пользователем Mongolor, 22 окт 2008.

Статус темы:
Закрыта.
  1. Mongolor

    Mongolor

    Регистр.:
    5 дек 2007
    Сообщения:
    157
    Симпатии:
    29
    что-то немогу допереть как заставить парсер работать.
    а конкретно агресс парсер, что нужно вводить в поле запросы.

    также попутно возник вопрос, чем потом отсортировать базы по Тиц Pr и другим показателям?

    by SolutionFix: А поиск юзать не судьба?! А назвать тему нормально не судба? Closed.
     
  2. sulacco

    sulacco Постоялец

    Регистр.:
    17 мар 2008
    Сообщения:
    90
    Симпатии:
    45
    "запросы" "добавить" - добавляешь запрос по которому прасить, ставиш галочку напротив поисковика и жмешь "Запуск"

    Проверь настройки:
    В папке search находяться файлы настроек на парсинг.
    В файле AbsoluteUrl- это первый урл на который зайдет парсер, макроподстановкой {REQUEST} можно подставить запрос.
    UntilTextAfter-<a href=”{TEXT}” это то что парситься, то есть парсер выдерет все между <a href=” и “.
    UntilNextLinkAfter-<a href="{NEXTLINK}" это где искать следующию ссылку, для гугла например это NEXT, аналогично выдеранию урлов.
    Значение Url- подставляеться перед напарсеным следующим урлом, то есть если напарсеный урл неполный например /search.php=asdf, то сюда нужно написать http://google.com.



    google.txt должен быть типа таким:

    Url-http://www.google.com
    AbsoluteUrl-http://www.google.com/search?q={REQUEST}{system\topdomains.txt}&num=100&hl=en&lr=&start=0&sa=N
    UntilTextAfter-<a href=”{TEXT}”
    UntilNextLinkAfter-
    Pattern-{TEXT}

    или вот так попробуй:
    Url-http://www.google.com
    AbsoluteUrl-http://www.google.com/search?client=opera&rls=ru&q={REQUEST}{system\topdomains.txt}&sourceid=opera&ie=utf-8&oe=utf-8&num=100
    UntilTextAfter-<li class=g><h3 class=r><a href="{TEXT}"
    UntilNextLinkAfter-</a><td class=b><a href="{NEXTLINK}">
    Pattern-{TEXT}
     
    Mongolor нравится это.
  3. Mongolor

    Mongolor

    Регистр.:
    5 дек 2007
    Сообщения:
    157
    Симпатии:
    29
    по гуглу по таким запросом почемуто отказывается искать, а вот по яху ищет.

    и еще вопросик:
    а как из этого вытягивать форумы/гостевухи?
     
  4. pvrj

    pvrj Постоялец

    Регистр.:
    7 окт 2008
    Сообщения:
    92
    Симпатии:
    56
    Для форумов и гостевух нужны характерные шаблоны поиска. Для ipb могу подсказать:

    inurl:"act=Members"


    А вообще была тут тема как раз по шаблонам под это дело.
     
  5. vasbka

    vasbka Постоялец

    Заблокирован
    Регистр.:
    15 июн 2007
    Сообщения:
    149
    Симпатии:
    242
    Запросы уже здесь выкладывали.

    http://www.nulled.ws/showthread.php?t=60185
    База для парсинга гостевых. Где то 2к уникальных, 8к всего.

    http://www.nulled.ws/showthread.php?t=47857
    10 тонн запросов для парсинга форумов
     
  6. Pftriot

    Pftriot

    Регистр.:
    22 ноя 2007
    Сообщения:
    278
    Симпатии:
    226
    Здесь просто. Запросы для парсинга необходимо, собирать ПОД свою спамилку. Тоесть те ресурсы которые пробивает именно ваша спамилка.
    Условный пример вы владелец лтцензионного хрумера версии 5.0
    Как известно эта спамилка в основном своем предназначена для спама по форумам.
    Значит парсить будем форумы. Для этого возьмем например один с основных, распрастраненных движков, каторые пробивает наш хрумер.
    Это может быть, скажем, Форум на движке IPB.
    http://forum.nahab.info/index.php?showtopic=13705 - заходим на этот форум, и начинаем собирать признаки, характерны этому движку форума. Например проходим по урлу, и смотрим.
    Помощь, регистрация и т п , проявляем фантазию.
    PHP:
    ndex.php?showtopic
         index
    .php?act=Help
         index
    .php?act=Reg&CODE=00
    и у нас будет СВОЯ УНИКАЛЬНАЯ БАЗА форумов. Повторяем с другими движками: Форум phpBB , VBulletin и.т.д и.т.п
    Другой пример: Берем любую базу с форума(естественно если нужны гесты - то базу гест, если форумы - то базу форумов) Загружаем её ф хрумер(доступно в Демо версии)
    Используем инструменты хрумера, и ву-а-ля имеем свои признаки.

    Также думаю будет не лишним, почитать здесь: http://www.klikforum.com/viewtopic.php?t=1405
    А также конкурсные статьи на ботмастере, в частности, это: http://belkatw.ru/index11.html

    И это: http://belkatw.ru/index3.html
     
    Tuxapb и Mongolor нравится это.
Статус темы:
Закрыта.