Оптимальный парсер для разных сайтов

Тема в разделе "Регулярные выражения", создана пользователем dmsoh, 3 июн 2009.

Статус темы:
Закрыта.
Модераторы: xpert13
  1. dmsoh

    dmsoh

    Регистр.:
    27 янв 2007
    Сообщения:
    192
    Симпатии:
    42
    Стоит задача собирать новости с разных новостных порталов. Сайт СДЛ, но на наполнение некоторых разделов просто нет времени.

    Насколько я понимаю написание с нуля скрипта, который бы выкачивал контент с другого сайта может занять прилично времени, поэтому может есть в природе парсер или граббер незнаю как правильно, чтобы можно задавать критерии парсинга, url, ограничивающие теги и т.п.
     
  2. upandhigh

    upandhigh

    Регистр.:
    11 фев 2009
    Сообщения:
    235
    Симпатии:
    89
    есть спец либы для парсинга ХТМЛ и ХМЛ, на выходе они дают тебе структуру данных из которой ты можешь легко, чаще всего при помощи ХPath выбирать нужные тебе элементы. обычно юзают их когда влом писать регулярные выражения. на пыхе это PHPdom вроде как: http://www.merchantos.com/makebeta/php/scraping-links-with-php/ тут вот есть пример неплохой. на питоне я юзаю lxml она очень шустрая - http://codespeak.net/lxml/ в итоге после загрузки страницы ты можешь обращаться к данным по виду: result.xpath("//a[@target='_blank']") типа выбрать из ХТМЛ страницв все ссылки у которых таргет свойство БЛЭНК, у тебя же это будет типа выбрать содержимое дива с такимто ИД. вобщем я бы копал в эту сторону - и удобно и быстро писать новые правила, но учти что все эти либы весьма ресурсоемкие поэтому если это нужно делать сразу в сотни конектов то лучше поискать другие варианты.
     
    dmsoh нравится это.
  3. andrnag

    andrnag

    Регистр.:
    26 мар 2008
    Сообщения:
    350
    Симпатии:
    125
    dmsoh нравится это.
  4. ZeFiR

    ZeFiR Создатель

    Регистр.:
    16 фев 2007
    Сообщения:
    10
    Симпатии:
    1
    Лучше дома под пыхом ничего нету
     
  5. RolCom

    RolCom

    Регистр.:
    12 мар 2008
    Сообщения:
    351
    Симпатии:
    108
  6. tostrss

    tostrss

    Регистр.:
    16 окт 2007
    Сообщения:
    771
    Симпатии:
    217
    LWP использовать не советую для парсеров. Дело в том, что lwp реально мощный пакет и который пытается объять необъятное. Если в хидере респонса выдаются нестандартные данные (серв глючит, скрипты выдают левые заголовки и т.д.) то LWP пытается их обработать, пытается найти нужный пакет, естественно не находит и скрипт останавливается....а так lwp мне очень нравится, но когда работаю с известным сайтом и за скоростью не гонюсь.

    p.s. для сканеров/парсеров советую либвискер...имхо достойная обертка сокетам.
     
    dmsoh нравится это.
  7. toxaua

    toxaua Прохожие

  8. onext123

    onext123 Писатель

    Заблокирован
    Регистр.:
    8 ноя 2008
    Сообщения:
    6
    Симпатии:
    0
    кто поможет тоже нужно (чтобы можно задавать критерии парсинга, url, ограничивающие теги и т.п. )
     
  9. qw123

    qw123 Читатель

    Заблокирован
    Регистр.:
    15 янв 2010
    Сообщения:
    23
    Симпатии:
    0
    Кто-нибудь пробовал парсить с помощью проги NEW WRITER? Она работает под windows.
     
  10. watson_

    watson_

    Регистр.:
    12 окт 2006
    Сообщения:
    258
    Симпатии:
    48
Статус темы:
Закрыта.