Универсальный парсер

the_stalker · 16 Мар 2008

Можно ли создать скрипт универсального парсера который мог бы грабить контент с любого сайта?
И каков его алгоритм?
Граберы RSS-фидов не в счет.

БАРАДА · 16 Мар 2008

как только все будут использовать универсальную верстку )

Dogmat · 17 Мар 2008

перлу .... если хотите сделать что то серьезное.

не тупи пожалуйста, который год слышу это, только не заметил почему то, чтобы все на него ломанулись. степень серьезности далеко не всегда зависит от языка.

TC. можно сделать относительно универсальный парсер. несколько вариантов возможны, один из них - написать библиотеку для распарсивания страниц в структурированный вид.
можно вполне распарсить тексты, возможные ссылки(меню), заголовки - у этих типов достаточно легко выделить исключительные показатели в достаточной мере.

это тебе на затравку

, всей технологией естественно делиться никто не будет, не только потому что это достаточно прибыльно может быть, но и по той причине что в паблик такое выпускать нельзя

~Daniel~ · 23 Мар 2008

Есть вот такая довольно интересная вещ. Но называть это универсальным парсером я бы не стал.

rosko · 25 Мар 2008

С точки зрения житейской мудрости:

Да, с помощью некого инструмента (в нашем случае пхп) можно создать универсальный инструмент (в смысле парсер), только этот полученный универсальный инструмент (парсер) будет гораздо сложнее в освонии, чем исходный инструмент (то есть, пхп).

Вывод прост. Нету универсальных парсеров. А если хочешь сделать, тут уже правильно указывали в стороны нейронных сетей и прочих зачатком искусственного интеллекта.

Учите регулярные выражения и функции пхп для работы со строками.

f0xman · 25 Мар 2008

универсальный скрипт - НЕТ
да и не нужен такой, не рентабельно это.
а вот десктопный софт подобный - есть и очень отлично справляецца с задачами

ortega3000 · 26 Мар 2008

the_stalker написал(а):
Можно ли создать скрипт универсального парсера который мог бы грабить контент с любого сайта?
И каков его алгоритм?
Граберы RSS-фидов не в счет.

Я делал следующим образом: писал ядро парсера, которому передавался набор переменных для определенного сайта. Этот набор переменных может содержать все, что нужно для "заточки" ядра под определенный сайт. Естественно. чтопредполагаетсчя, что в пределах одного сайта используется один подход к форматированию материалов. А затем, имея настройки для сайта, парсер сможет брать любые страницы и парсить их на основании этих настроек.

Хоть нейронные сети и хороши, но использовать их не всегда рентабельно. Лучше дописывать блоки настроек для небольшого ядра.

UnixLike · 27 Мар 2008

А вот я отвечу, ДА. Можно.

Правда смотря что именно парсить. Основной контент, "статьи" сайта? Легко. А почему нет?
Всё сводится к простейшей задачи. (если программировать уметь конечно).
Ну сами подумайте, если админ/модер/пользователи добавляют контент на сайт, значит его как-то можно и отделить от дизайна.. Правильно? Вот я об этом и говорю..

lexesv · 27 Мар 2008

Написал уже давно (с похожим подходом как описал ortega3000). И давно им сам пользуюсь.
Настраиваются теги для парсинга (с чего по что выбирать под каждое поле для бд) и делается шаблон sql запроса, Поэтому парсер может работать с любой структурой бд и любым видом сайта.
В паблик не выложу и даже не продам.

Вся система писалась за три дня.

pitachek · 4 Апр 2008

parser

да на ПХП где-то ушло несколько дней для написания. Для автоматизации под несколько сайтов ещё пару дней и того где-то неделя. Есть альтернативы поищите тут на форуме например WP FeedMaster

Универсальный парсер

the_stalker

Постоялец

БАРАДА

Создатель

Dogmat

Профессор

~Daniel~

Создатель

Вложения

rosko

Создатель

f0xman

Прохожие

ortega3000

Создатель

UnixLike

Писатель

lexesv

Постоялец

pitachek

Создатель