Как (чем) отпарсить нужную информацию с сайта

Статус
В этой теме нельзя размещать новые ответы.

toxass

Постоялец
Регистрация
24 Июл 2007
Сообщения
114
Реакции
15
Стоит задача собрать базу названия фирм на одном сайтике.
Каждая фирма заключена в дефолтные тэги <a href="#" class="firm">Название фирмы</a> , все фирмы разбиты по алфавиту.

Можно ли чем-то загрузить список страниц и на выходе получить только названия фирмы?
 
Если познаний в кодинге нет, то можно скачать все нужные страницы и пройтись по ним программой с возможностью поиска по регуляркам (regexp). Например, sites.google.com/site/rexcrawler/about
 
это можно сделать влет agress parserom совсем немного разобравшись в его настройках, или хотя бы прочитав сайт разработчиков
 
Как всегда! Nulled помог в решении моих проблем :az:
 
это можно сделать влет agress parserom совсем немного разобравшись в его настройках, или хотя бы прочитав сайт разработчиков
Пока еще агресс не ставил, но я думал, что он только для парсинга ПС и сбора урлов. Разве агрессом можно "собрать базу названия фирм на одном сайтике" ? :nezn: Что-то у меня сомнения, что агресом можно текст грабить, если тока собрать урлы страниц, а потом дополнительно каким-то скриптом проходить. Возможно ошибаюсь...

Имхо, это легче сделать тем же Мультиредором, указав, какие именно теги нужно обрабатывать (<a href="#" class="firm">Название фирмы</a>) P.S: Если конечно есть в наличие ридер.
 
Мультиредором - это что за зверь? Попробовал настроить шаблон для агресса..на выходе получаю кучу мусора.
 
AGRESS PARSER можно все, главное желание и чтобы руки были не кривые, если не знаем то не спорим и ничего не говорим, если нужна помощь в настройке жду в асе, сделаю (по возможности) необходимое, но не за бесплатно (ибо надоела благотворительность, либо работаем головой, либо платим)
 
а есть готовые скрипты на пхп, чтобы настроить - и напрямую в базу данные забивались?

Web Info Extractor такое может, как я понял способна она на очень и очень многое, правда жалко за нее 300$ отдавать.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху