парсинг текста

keykea · 20 Сен 2009

Solix написал(а):
подскажет ктонить синонимайзер ато не знаю какой лучше

из серверных пожалуй лучше Для просмотра ссылки Войди или Зарегистрируйся, ну а из локальных наверно Для просмотра ссылки Войди или Зарегистрируйся будет...

BDN · 7 Дек 2009

А ват этим кто нибудь парсил MultiReader? Как он?

betatester · 15 Дек 2009

Solix написал(а):
подскажет ктонить синонимайзер ато не знаю какой лучше

Пользуюсь WordSyn, но местами как-то средненько получается...

VmpAkV · 15 Дек 2009

Solix написал(а):
подскажет ктонить синонимайзер ато не знаю какой лучше

Попробуй

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

ArtFun · 15 Дек 2009

Нахожу какой нибудь сайт крупный новостной, желательно с поиском если хочется тематический текст.
Открываю курлом результаты поиска, выпаршиваю ссылки с тематическими статьями, прохожусь курлом по всем страницам со статьями, выдираю контент.
Как-то так

sergoos · 16 Дек 2009

Объясните нубу для чего нужен парсер сниплетов?
В них порой такая чушь пишется. Какой от них толк?

mih-81 · 20 Дек 2009

Solix написал(а):
подскажет ктонить синонимайзер ато не знаю какой лучше

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Nezavisim · 23 Дек 2009

подскажите по webgrabber
есть нуленый качал с торента...
делаю все как в видосе на сайте разработчика...
создал проект, запустил крон.пхп...
в итоге в списке проектов: Страниц обрабатывается и обработано меняется, а в получено нечего не попадает =( подскажите почему?
пробывал уменьшить "Минимальная длина текста" и галочку ставил шаблон использовать и менял его(поле с ним непонятно почему под реадонли было кстати)не помогает. =(
в чем может быть проблема?

arch14 · 24 Дек 2009

BDN написал(а):
А ват этим кто нибудь парсил MultiReader? Как он?

Хороший парсер. Только дорого стоит зараза

Им очень удобно сливать текст с сайтов, но с некоторыми новостными порталами бывают сложности. 9к хтмл страниц слил где-то часа за два, выдернул текст по указанному шаблону: заголовок-текст на тех страницах где текста более 2к знаков, чтобы не сливать всякие менюшки.
Промежуточные результаты сохраняет в папку TEMP. В этот момент можно попытаться перехватить спарсенные тексты. По завершению работы все загоняет в файл db.db3, а временные файлы трет. Демо-версия экспортирует только первые 6 статей.

brunet555 · 6 Фев 2010

Люди,подскажите где взять нуленный,рабочий multireader? :confused:

парсинг текста

keykea

Прохожие

BDN

Писатель

betatester

Писатель

VmpAkV

Старатель

ArtFun

Постоялец

sergoos

Создатель

mih-81

Постоялец

Nezavisim

Писатель

arch14

Постоялец

brunet555

Писатель