Парсер форумов

Статус
В этой теме нельзя размещать новые ответы.

LEXAlForpostl

Мой дом здесь!
Регистрация
21 Май 2008
Сообщения
766
Реакции
228
Здравствуйте.
Хочу написать парсер форумов.
Подскажите пожалуйста, где можно найти признаки форумов?
 
Ну вот, берем например этот форум.
В сурсе видим
Значит первых два признак будет это
powered by vBulletin 3.8.3
powered by vBulletin
Смотрим на урл этой темы
Признаком будет
Также из него можно сделать разные
inurl: forum/showthread.php
inurl: showthread filetype:php
inurl: showthread filetype:php inurl:t
Ползем вверх и видим урл
Получаем
inurl: forum/forumdisplay.php
inurl: forumdisplay filetype:php
inurl: forumdisplay filetype:php inurl:f
С другими форумами аналогично. Привел признаки для гугла, если тебе под свой скрипт, то просто по урлам, по типу форума и т.д.
 
Насчет урлов - видел много форумов, где на том же ВБ установлен человеко-понятные урлы. Как с этим быть?
Только по powered by?
 
Подскажите пожалуйста, как оформить правильно урл парсер, если урл написан на русском языке, да ещё и с пробелом.
Превый раз с таким сталкиваюсь.

Как написать парсер в таком случае?
 
а что меняется ?
разве что чаще всего понадобится перевести в utf-8 ( для википедии например )
в остально - урл как урл, ничего не меняется
 
урл как урл, ничего не меняется
Понятно.
Ковырялся, ковырялся.Не получается.
Подскажите пожалуйста, как спарсить оперделённую категорию на сайте
Там стоит ограничение 30 страниц на отображение.
 
Рекусивно проходи по страницам.
 
Как эту рекурсию организовать, если там всего то, 30 страниц, вместо 1000 страриц, которые есть в базе.
Думаю, что там надо либо с поиском играть либо что-то ещё?
 
С поиском поиграть, однозначно, делай разные (похожие) запросы и при пост обработке удаляй дубли.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху