парсер форума

DenisK

Старатель
Заблокирован
Регистрация
8 Фев 2007
Сообщения
207
Реакции
14
  • Автор темы
  • Заблокирован
  • #1
Хочу написать свой парсер/grabber форумов

Подскажите с чего начать.
В частности интересует как работать с многостраничными документами

Добавлено через 22 минуты
Также интересует есть ли удобный инструмент, используя который можно выполнять отладку регулярных выражений.
 
Как работать с многостраничными документами
Да просто менять урл на нужный и брать следующую страницу. Рассмотрим на примере нулледа. Первая страница - http_//www.nullеd.cc/forumdisplay.php?f=ХХХ, вторая - http_//www.nullеd.cc/forumdisplay.php?f=ХХХ&page=2. Думаю и так все понятно.
На некоторых форумах будет на page=2, а смещение в темах. Рассмотрим на примере рутрекера: первая страница - http_//rutracker.оrg/forum/viewforum.php?f=ХХХ, вторая - http_//rutracker.оrg/forum/viewforum.php?f=ХХХ&start=50. В этом случае число 50 означает, что в соответствии с моими настройками, на странице выводится 50 тем.
Также интересует есть ли удобный инструмент, используя который можно выполнять отладку регулярных выражений.
Не побоюсь такой категоричности, но лучший инструмент для создания, тестирования и отладки регулярок, это СтОит 40$. Бесплатную версию брать
 
Также интересует есть ли удобный инструмент, используя который можно выполнять отладку регулярных выражений.
недавно написал на php простенький тестер регулярок можешь попробовать :)Посмотреть вложение regex.rar обрабатывает 3 регулярки preg_match, preg_match_all, preg_replace в верхнее окошко загружаешь исходный код ниже регулярку и на что заменить(если надо) внизу получаем результат
 
  • Автор темы
  • Заблокирован
  • #5
RegexBuddy - крутая вещь, буду использовать, с этим вопрос закрыт

Добавлено через 3 минуты
Насчет многостраничности - как определить общее количество страниц?
Найти блок который отвечает за ссылки на страницы (1 2 3 ... 45) и взять для скрипта максимальное значение или есть какой-то другой метод?
 
  • Автор темы
  • Заблокирован
  • #7
Некоторые форумы при попытке считывания выдают ошибку 404, или другую.
Я так понимаю они себя защитили от таких случаев.
Хотя с броузера открывается нормально.
Можно ли эту защиту обойти?
 
Можно ли эту защиту обойти?
попробуй рефера менять или сам форум пропиши или посковик какой-нибудь
 
Назад
Сверху