[regex] пишу парсер вакансий и резюме

toty

Постоялец
Регистрация
1 Авг 2011
Сообщения
136
Реакции
3
Не могу определиться с RegEx для выдерания контента на PHP (немного лень дебажить, что уже писали 10-ки разработчиков:(
Фио, дата рождения, семейное положение и дети, контакты и т.п.. Может быть есть какой парсер посмотреть, эти регулярки или где их можно выдрать?
 
Контент - это HTML? Или тебе нужно только проверить подлинность данных?
 
Контент - это HTML? Или тебе нужно только проверить подлинность данных?
Можно сказать, что это plain-text. взять данные с удаленных серверов и положить в Бд. Ну это то я уже сделал, а вот ~20 регекспов долго ковырять...
 
не бывает регулярок под фамилии детей или фио

регулярка делается под конкретный html код, который содержит эти данные
 
не понял на кой хрен мне это читать :D

без приведения конкретного кода html из которого надо что то выпарсить - вообще ни о каких регулярках речь идти не может

нельзя составить регулярку имея в исходных данных только условное описание того что надо спасить, надо ещё выделить признаки разделители этих данных
 
не понял на кой хрен мне это читать
Ну там про то, что не нужно парсить html regexp-ами. "Каждый раз, когда вы парсите html при помощи regexp'ов, бог убивает котёнка".
 
ну а как тогда ?? через DOM ??

так чтобы через DOM сделать один хрен html код нужен тк названия тегов нужны, без них никак :D

Да и умрёт DOM если html не валидный будет

RegExp это универсальное средство которое уже 15 лет работает и ещё долго будет работать

Как ты думаеш все DOM библиотеки они как html разбирают ?? разве не через RegExp ?? :D
 
ну а как тогда ?? через DOM ??
Как бе да.
Да и умрёт DOM если html не валидный будет
Смотря на сколько невалидный. С phpQuery пока не сталкивался с проблемой невалидного HTML.
RegExp это универсальное средство которое уже 15 лет работает и ещё долго будет работать
Почитай по той ссылке тот ответ, там много причин приведено, почему не стоит парсить regexp-ами html.
Как ты думаеш все DOM библиотеки они как html разбирают ?? разве не через RegExp ??
Насчет всех не знаю, но phpQuery (jQuery порт на php) через DOM парсит.
 
Еще раз скажу это: Plain text. Могу перегнать в любой формат.
 
Назад
Сверху