парсер форума

Тема в разделе "Как сделать...", создана пользователем DenisK, 18 мар 2011.

  1. DenisK

    DenisK

    Регистр.:
    8 фев 2007
    Сообщения:
    206
    Симпатии:
    14
    Хочу написать свой парсер/grabber форумов

    Подскажите с чего начать.
    В частности интересует как работать с многостраничными документами

    Добавлено через 22 минуты
    Также интересует есть ли удобный инструмент, используя который можно выполнять отладку регулярных выражений.
     
  2. Murdok

    Murdok

    Регистр.:
    1 окт 2006
    Сообщения:
    236
    Симпатии:
    84
    Могу посоветовать для написания рег выражений, часто им сам пользуюсь
    http://www.pcre.ru/eval
     
  3. gres_18

    gres_18 Pythonобандерівець®

    Регистр.:
    26 апр 2009
    Сообщения:
    407
    Симпатии:
    206
    Да просто менять урл на нужный и брать следующую страницу. Рассмотрим на примере нулледа. Первая страница - http_//www.nullеd.cc/forumdisplay.php?f=ХХХ, вторая - http_//www.nullеd.cc/forumdisplay.php?f=ХХХ&page=2. Думаю и так все понятно.
    На некоторых форумах будет на page=2, а смещение в темах. Рассмотрим на примере рутрекера: первая страница - http_//rutracker.оrg/forum/viewforum.php?f=ХХХ, вторая - http_//rutracker.оrg/forum/viewforum.php?f=ХХХ&start=50. В этом случае число 50 означает, что в соответствии с моими настройками, на странице выводится 50 тем.
    Не побоюсь такой категоричности, но лучший инструмент для создания, тестирования и отладки регулярок, это RegexBuddyСтОит 40$. Бесплатную версию брать тут
     
    DenisK нравится это.
  4. zzallexx

    zzallexx

    Регистр.:
    11 июн 2008
    Сообщения:
    1.035
    Симпатии:
    703
    недавно написал на php простенький тестер регулярок можешь попробовать :) Посмотреть вложение regex.rar обрабатывает 3 регулярки preg_match, preg_match_all, preg_replace в верхнее окошко загружаешь исходный код ниже регулярку и на что заменить(если надо) внизу получаем результат
     
  5. DenisK

    DenisK

    Регистр.:
    8 фев 2007
    Сообщения:
    206
    Симпатии:
    14
    RegexBuddy - крутая вещь, буду использовать, с этим вопрос закрыт

    Добавлено через 3 минуты
    Насчет многостраничности - как определить общее количество страниц?
    Найти блок который отвечает за ссылки на страницы (1 2 3 ... 45) и взять для скрипта максимальное значение или есть какой-то другой метод?
     
  6. exn

    exn Постоялец

    Регистр.:
    22 янв 2010
    Сообщения:
    146
    Симпатии:
    23
    Q:
    A:
    другие способы сильно специфичны
     
  7. DenisK

    DenisK

    Регистр.:
    8 фев 2007
    Сообщения:
    206
    Симпатии:
    14
    Некоторые форумы при попытке считывания выдают ошибку 404, или другую.
    Я так понимаю они себя защитили от таких случаев.
    Хотя с броузера открывается нормально.
    Можно ли эту защиту обойти?
     
  8. zzallexx

    zzallexx

    Регистр.:
    11 июн 2008
    Сообщения:
    1.035
    Симпатии:
    703
    попробуй рефера менять или сам форум пропиши или посковик какой-нибудь