Парсеры и что с ними делать

Статус
В этой теме нельзя размещать новые ответы.

Mongolor

Мастер
Регистрация
5 Дек 2007
Сообщения
156
Реакции
30
что-то немогу допереть как заставить парсер работать.
а конкретно агресс парсер, что нужно вводить в поле запросы.

также попутно возник вопрос, чем потом отсортировать базы по Тиц Pr и другим показателям?

by SolutionFix: А поиск юзать не судьба?! А назвать тему нормально не судба? Closed.
 
"запросы" "добавить" - добавляешь запрос по которому прасить, ставиш галочку напротив поисковика и жмешь "Запуск"

Проверь настройки:
В папке search находяться файлы настроек на парсинг.
В файле AbsoluteUrl- это первый урл на который зайдет парсер, макроподстановкой {REQUEST} можно подставить запрос.
UntilTextAfter-<a href=”{TEXT}” это то что парситься, то есть парсер выдерет все между <a href=” и “.
UntilNextLinkAfter-<a href="{NEXTLINK}" это где искать следующию ссылку, для гугла например это NEXT, аналогично выдеранию урлов.
Значение Url- подставляеться перед напарсеным следующим урлом, то есть если напарсеный урл неполный например /search.php=asdf, то сюда нужно написать Для просмотра ссылки Войди или Зарегистрируйся.



google.txt должен быть типа таким:

Url-http://www.google.com
AbsoluteUrl-http://www.google.com/search?q={REQUEST}{system\topdomains.txt}&num=100&hl=en&lr=&start=0&sa=N
UntilTextAfter-<a href=”{TEXT}”
UntilNextLinkAfter-
Pattern-{TEXT}

или вот так попробуй:
Url-http://www.google.com
AbsoluteUrl-http://www.google.com/search?client=opera&rls=ru&q={REQUEST}{system\topdomains.txt}&sourceid=opera&ie=utf-8&oe=utf-8&num=100
UntilTextAfter-<li class=g><h3 class=r><a href="{TEXT}"
UntilNextLinkAfter-</a><td class=b><a href="{NEXTLINK}">
Pattern-{TEXT}
 
по гуглу по таким запросом почемуто отказывается искать, а вот по яху ищет.

и еще вопросик:
а как из этого вытягивать форумы/гостевухи?
 
Для форумов и гостевух нужны характерные шаблоны поиска. Для ipb могу подсказать:


А вообще была тут тема как раз по шаблонам под это дело.
 
  • Заблокирован
  • #5
Здесь просто. Запросы для парсинга необходимо, собирать ПОД свою спамилку. Тоесть те ресурсы которые пробивает именно ваша спамилка.
Условный пример вы владелец лтцензионного хрумера версии 5.0
Как известно эта спамилка в основном своем предназначена для спама по форумам.
Значит парсить будем форумы. Для этого возьмем например один с основных, распрастраненных движков, каторые пробивает наш хрумер.
Это может быть, скажем, Форум на движке IPB.
- заходим на этот форум, и начинаем собирать признаки, характерны этому движку форума. Например проходим по урлу, и смотрим.
Помощь, регистрация и т п , проявляем фантазию.

и у нас будет СВОЯ УНИКАЛЬНАЯ БАЗА форумов. Повторяем с другими движками: Форум phpBB , VBulletin и.т.д и.т.п
Другой пример: Берем любую базу с форума(естественно если нужны гесты - то базу гест, если форумы - то базу форумов) Загружаем её ф хрумер(доступно в Демо версии)
Используем инструменты хрумера, и ву-а-ля имеем свои признаки.

Также думаю будет не лишним, почитать здесь:
А также конкурсные статьи на ботмастере, в частности, это:

И это:
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху