парсинг текста

Статус
В этой теме нельзя размещать новые ответы.
А ват этим кто нибудь парсил MultiReader? Как он?
 
Нахожу какой нибудь сайт крупный новостной, желательно с поиском если хочется тематический текст.
Открываю курлом результаты поиска, выпаршиваю ссылки с тематическими статьями, прохожусь курлом по всем страницам со статьями, выдираю контент.
Как-то так :)
 
Объясните нубу для чего нужен парсер сниплетов?
В них порой такая чушь пишется. Какой от них толк?
 
подскажите по webgrabber
есть нуленый качал с торента...
делаю все как в видосе на сайте разработчика...
создал проект, запустил крон.пхп...
в итоге в списке проектов: Страниц обрабатывается и обработано меняется, а в получено нечего не попадает =( подскажите почему?
пробывал уменьшить "Минимальная длина текста" и галочку ставил шаблон использовать и менял его(поле с ним непонятно почему под реадонли было кстати)не помогает. =(
в чем может быть проблема?
 
А ват этим кто нибудь парсил MultiReader? Как он?
Хороший парсер. Только дорого стоит зараза :( Им очень удобно сливать текст с сайтов, но с некоторыми новостными порталами бывают сложности. 9к хтмл страниц слил где-то часа за два, выдернул текст по указанному шаблону: заголовок-текст на тех страницах где текста более 2к знаков, чтобы не сливать всякие менюшки.
Промежуточные результаты сохраняет в папку TEMP. В этот момент можно попытаться перехватить спарсенные тексты. По завершению работы все загоняет в файл db.db3, а временные файлы трет. Демо-версия экспортирует только первые 6 статей.
 
Люди,подскажите где взять нуленный,рабочий multireader?:confused:
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху