Как (чем) отпарсить нужную информацию с сайта

Тема в разделе "Вопросы новичков", создана пользователем toxass, 30 май 2009.

Статус темы:
Закрыта.
  1. toxass

    toxass Постоялец

    Регистр.:
    24 июл 2007
    Сообщения:
    114
    Симпатии:
    15
    Стоит задача собрать базу названия фирм на одном сайтике.
    Каждая фирма заключена в дефолтные тэги <a href="#" class="firm">Название фирмы</a> , все фирмы разбиты по алфавиту.

    Можно ли чем-то загрузить список страниц и на выходе получить только названия фирмы?
     
  2. lobzik

    lobzik

    Регистр.:
    8 авг 2006
    Сообщения:
    311
    Симпатии:
    49
    Если познаний в кодинге нет, то можно скачать все нужные страницы и пройтись по ним программой с возможностью поиска по регуляркам (regexp). Например, sites.google.com/site/rexcrawler/about
     
  3. Piranha

    Piranha

    Регистр.:
    1 дек 2008
    Сообщения:
    534
    Симпатии:
    69
    это можно сделать влет agress parserom совсем немного разобравшись в его настройках, или хотя бы прочитав сайт разработчиков
     
    toxass нравится это.
  4. toxass

    toxass Постоялец

    Регистр.:
    24 июл 2007
    Сообщения:
    114
    Симпатии:
    15
    Как всегда! Nulled помог в решении моих проблем :az:
     
  5. makia

    makia

    Регистр.:
    23 сен 2006
    Сообщения:
    277
    Симпатии:
    146
    Пока еще агресс не ставил, но я думал, что он только для парсинга ПС и сбора урлов. Разве агрессом можно "собрать базу названия фирм на одном сайтике" ? :nezn: Что-то у меня сомнения, что агресом можно текст грабить, если тока собрать урлы страниц, а потом дополнительно каким-то скриптом проходить. Возможно ошибаюсь...

    Имхо, это легче сделать тем же Мультиредором, указав, какие именно теги нужно обрабатывать (<a href="#" class="firm">Название фирмы</a>) P.S: Если конечно есть в наличие ридер.
     
  6. toxass

    toxass Постоялец

    Регистр.:
    24 июл 2007
    Сообщения:
    114
    Симпатии:
    15
    Мультиредором - это что за зверь? Попробовал настроить шаблон для агресса..на выходе получаю кучу мусора.
     
  7. makia

    makia

    Регистр.:
    23 сен 2006
    Сообщения:
    277
    Симпатии:
    146
    Возможно агрессом и можно это делать. Как я написал выше, с ним пока еще не работал.


    Вот сайт MultiReader. Об этой проге есть как положительные отзывы, так и отрицательные. Поэтому, если надумаете приобретать, не поленитесь прочитать, например, здесь. Нулленнго ридера лично я не встречал.

    Как вариант, еще есть такой парсер контента, как WebGrabber. В его настройках также можно задавать определенные теги для парсинга. Кстати, WebGrabber есть нулленый ;). Поискать и посмотреть отзывы можно тут.

    Если уж прижмет, агресс настроить не получится, покупать ридер покажется дорогим удовольствием, а для скачивания нуленного webgrabbera не хватит хайда, то можно опубликовать объяву в рекламной разделе. Здесь многие парсят. Я думаю цена на вашу работу будет не так велика. Если, конечно, вам инфу всего лишь с одного сайта необходимо сграбить.
     
  8. toxass

    toxass Постоялец

    Регистр.:
    24 июл 2007
    Сообщения:
    114
    Симпатии:
    15
  9. Piranha

    Piranha

    Регистр.:
    1 дек 2008
    Сообщения:
    534
    Симпатии:
    69
    AGRESS PARSER можно все, главное желание и чтобы руки были не кривые, если не знаем то не спорим и ничего не говорим, если нужна помощь в настройке жду в асе, сделаю (по возможности) необходимое, но не за бесплатно (ибо надоела благотворительность, либо работаем головой, либо платим)
     
  10. toxass

    toxass Постоялец

    Регистр.:
    24 июл 2007
    Сообщения:
    114
    Симпатии:
    15
    Web Info Extractor такое может, как я понял способна она на очень и очень многое, правда жалко за нее 300$ отдавать.
     
Статус темы:
Закрыта.