Универсальный парсер

Статус
В этой теме нельзя размещать новые ответы.
Вот такой вариант, в принципе универсальный парсер контента.


Хотите большего конкретизируйте вопрос
 
собственно давно уже всё написано (contentcutter), как раз работает на snoopy, а принцип просто - выдирает самый большой кусок текста (хоть и не всегда это контент). Но обычно хватает нормально.
 
да на ПХП где-то ушло несколько дней для написания. Для автоматизации под несколько сайтов ещё пару дней и того где-то неделя. Есть альтернативы поищите тут на форуме например WP FeedMaster
Сам использую этот парсер. Очень шустрый и прост в настройке. Рекомендую :ay:
 
Многие видимо не поняли, что я имел ввиду в самом начале.

Речь не идет о написании парсера под определенный темплейт.

Передо мной встал вопрос: возможно ли сделать парсер АБСОЛЮТНО любых страниц?.

Реализовав пару идей на ПХП я понял, что это можно сделать только для страниц с более-менее валидным ХТМЛ кодом.
 
да поняли мы

ответ -- нельзя
 
Передо мной встал вопрос: возможно ли сделать парсер АБСОЛЮТНО любых страниц?.
C учетом кучи разных технологий используемых при создании страниц, самый универсальный парсер это PrintScreen:)
Если вообще не видеозапись того что творится на странице...
 
C учетом кучи разных технологий используемых при создании страниц, самый универсальный парсер это PrintScreen:)

жжёте, товарищи.. а потом в файнридер.. :D

сталкер,если ты хочешь парсер, которому скормил урль (или список), и он тебе сразу всё оттуда награбит, то такой вариант не возможен.

универсальный парсер можно сделать, но нужна предварительная настройка:
допустим, задаёшь УРЛЬ, признаки начала и конца нужных тебе фрагментов, поля БД куда это всё добро писать, и вперёд.

пишется такая тулзень недолго.
доведу свою до ума, выложу.
 
Да в принципе у меня тоже есть.
Правда на настройку уникального правила для определенного темплейта уходит 1 минута.
Но этот алогритм работает если блок с контентом имеет уникальное название.
 
Вполне возможно. И я бы лично смотрел в сторону php -> DOM

Когда то писал небольшие парсеры и дом мне в этом очень даже помогал, что и Вам советую.
 
2faider
Насколько я знаю, DOM загнеться на невалидном коде...
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху