как распарсить сайт? нужен контент для доров

Тема в разделе "Вопросы новичков", создана пользователем tuo34, 5 сен 2008.

Статус темы:
Закрыта.
  1. tuo34

    tuo34 Постоялец

    Регистр.:
    24 апр 2008
    Сообщения:
    59
    Симпатии:
    15
    Хочется распарсить некоторые тематические сайты, выдрать весь текст, побольше, чтобы каждый раз тем же баттоном поисковики не парсить. Есть такие парсеры?
    или как лучше поступить?
     
  2. bravilor

    bravilor

    Регистр.:
    25 июл 2007
    Сообщения:
    438
    Симпатии:
    155
    А на каком языке текст нужен? Если на английском, то есть Articles Grabber, вводишь кейворд и он по нему парсит текст. Если нужен русский текст, то кидаешь в переводчик то, что на парсил Articles Grabber, вот тебе и уник готовый.
     
  3. braindancer

    braindancer Создатель

    Регистр.:
    7 май 2007
    Сообщения:
    46
    Симпатии:
    8
    Есть очень хороший и дорогой софт, называется
    WebScraper.
    http://www.velocityscape.com/


    Может парсить сайты прямо в базы/xls файлы.
    Но нужно разбираться и читать help.

    Второй вариант - самому. Книга "Spidering Hacks" и perl тебе в помощь! :)
     
  4. gl0vv

    gl0vv Создатель

    Регистр.:
    20 авг 2008
    Сообщения:
    16
    Симпатии:
    2
    Как по мне, то лучше один раз написать парсер и потом только подстраивать его под нужные сайты. Ну или заказать парсер у программера. Только в ТЗ указать, чтоб можно было получить доступ к регулярным выражениям особо не копаясь в коде. Тогда для настройки парсера на новый сайт нужно будет только освоить регулярки. На своем опыте убедился, что выучить их не так уж сложно - зато будет универсальный в каком-то смысле инструмент, бери и парсь любой сайт.
     
  5. Dodgy

    Dodgy Юзверь

    Регистр.:
    7 сен 2008
    Сообщения:
    229
    Симпатии:
    44
    http://vector-seo.info/?page_id=8
    Почитай, попробуй. Очень даже ничего!
     
Статус темы:
Закрыта.