Универсальный парсер

Статус
В этой теме нельзя размещать новые ответы.

the_stalker

Постоялец
Регистрация
19 Фев 2007
Сообщения
116
Реакции
5
Можно ли создать скрипт универсального парсера который мог бы грабить контент с любого сайта?
И каков его алгоритм?
Граберы RSS-фидов не в счет.
 
как только все будут использовать универсальную верстку )
 
перлу .... если хотите сделать что то серьезное.

не тупи пожалуйста, который год слышу это, только не заметил почему то, чтобы все на него ломанулись. степень серьезности далеко не всегда зависит от языка.


TC. можно сделать относительно универсальный парсер. несколько вариантов возможны, один из них - написать библиотеку для распарсивания страниц в структурированный вид.
можно вполне распарсить тексты, возможные ссылки(меню), заголовки - у этих типов достаточно легко выделить исключительные показатели в достаточной мере.

это тебе на затравку ;), всей технологией естественно делиться никто не будет, не только потому что это достаточно прибыльно может быть, но и по той причине что в паблик такое выпускать нельзя ;)
 
Есть вот такая довольно интересная вещ. Но называть это универсальным парсером я бы не стал.
 

Вложения

  • HTMLDataParser.zip
    17,9 KB · Просмотры: 308
С точки зрения житейской мудрости:

Да, с помощью некого инструмента (в нашем случае пхп) можно создать универсальный инструмент (в смысле парсер), только этот полученный универсальный инструмент (парсер) будет гораздо сложнее в освонии, чем исходный инструмент (то есть, пхп).

Вывод прост. Нету универсальных парсеров. А если хочешь сделать, тут уже правильно указывали в стороны нейронных сетей и прочих зачатком искусственного интеллекта.

Учите регулярные выражения и функции пхп для работы со строками.
 
универсальный скрипт - НЕТ
да и не нужен такой, не рентабельно это.
а вот десктопный софт подобный - есть и очень отлично справляецца с задачами
 
Можно ли создать скрипт универсального парсера который мог бы грабить контент с любого сайта?
И каков его алгоритм?
Граберы RSS-фидов не в счет.

Я делал следующим образом: писал ядро парсера, которому передавался набор переменных для определенного сайта. Этот набор переменных может содержать все, что нужно для "заточки" ядра под определенный сайт. Естественно. чтопредполагаетсчя, что в пределах одного сайта используется один подход к форматированию материалов. А затем, имея настройки для сайта, парсер сможет брать любые страницы и парсить их на основании этих настроек.

Хоть нейронные сети и хороши, но использовать их не всегда рентабельно. Лучше дописывать блоки настроек для небольшого ядра.
 
А вот я отвечу, ДА. Можно.

Правда смотря что именно парсить. Основной контент, "статьи" сайта? Легко. А почему нет?
Всё сводится к простейшей задачи. (если программировать уметь конечно).
Ну сами подумайте, если админ/модер/пользователи добавляют контент на сайт, значит его как-то можно и отделить от дизайна.. Правильно? Вот я об этом и говорю..
 
Написал уже давно (с похожим подходом как описал ortega3000). И давно им сам пользуюсь.
Настраиваются теги для парсинга (с чего по что выбирать под каждое поле для бд) и делается шаблон sql запроса, Поэтому парсер может работать с любой структурой бд и любым видом сайта.
В паблик не выложу и даже не продам. ;)

Вся система писалась за три дня.
 
parser

да на ПХП где-то ушло несколько дней для написания. Для автоматизации под несколько сайтов ещё пару дней и того где-то неделя. Есть альтернативы поищите тут на форуме например WP FeedMaster
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху