[regex] пишу парсер вакансий и резюме

Тема в разделе "Как сделать...", создана пользователем toty, 18 мар 2012.

  1. toty

    toty Постоялец

    Регистр.:
    1 авг 2011
    Сообщения:
    111
    Симпатии:
    2
    Не могу определиться с RegEx для выдерания контента на PHP (немного лень дебажить, что уже писали 10-ки разработчиков:(
    Фио, дата рождения, семейное положение и дети, контакты и т.п.. Может быть есть какой парсер посмотреть, эти регулярки или где их можно выдрать?
     
  2. chibit

    chibit Life sucks.

    Регистр.:
    4 дек 2007
    Сообщения:
    419
    Симпатии:
    285
    Контент - это HTML? Или тебе нужно только проверить подлинность данных?
     
  3. toty

    toty Постоялец

    Регистр.:
    1 авг 2011
    Сообщения:
    111
    Симпатии:
    2
    Можно сказать, что это plain-text. взять данные с удаленных серверов и положить в Бд. Ну это то я уже сделал, а вот ~20 регекспов долго ковырять...
     
  4. o_nix

    o_nix

    Регистр.:
    7 ноя 2007
    Сообщения:
    1.073
    Симпатии:
    1.037
    не бывает регулярок под фамилии детей или фио

    регулярка делается под конкретный html код, который содержит эти данные
     
  5. chibit

    chibit Life sucks.

    Регистр.:
    4 дек 2007
    Сообщения:
    419
    Симпатии:
    285
    Перейти по ссылке почитай самый заплюсованный ответ
     
  6. o_nix

    o_nix

    Регистр.:
    7 ноя 2007
    Сообщения:
    1.073
    Симпатии:
    1.037
    не понял на кой хрен мне это читать :D

    без приведения конкретного кода html из которого надо что то выпарсить - вообще ни о каких регулярках речь идти не может

    нельзя составить регулярку имея в исходных данных только условное описание того что надо спасить, надо ещё выделить признаки разделители этих данных
     
  7. chibit

    chibit Life sucks.

    Регистр.:
    4 дек 2007
    Сообщения:
    419
    Симпатии:
    285
    Ну там про то, что не нужно парсить html regexp-ами. "Каждый раз, когда вы парсите html при помощи regexp'ов, бог убивает котёнка".
     
  8. o_nix

    o_nix

    Регистр.:
    7 ноя 2007
    Сообщения:
    1.073
    Симпатии:
    1.037
    ну а как тогда ?? через DOM ??

    так чтобы через DOM сделать один хрен html код нужен тк названия тегов нужны, без них никак :D

    Да и умрёт DOM если html не валидный будет

    RegExp это универсальное средство которое уже 15 лет работает и ещё долго будет работать

    Как ты думаеш все DOM библиотеки они как html разбирают ?? разве не через RegExp ?? :D
     
  9. chibit

    chibit Life sucks.

    Регистр.:
    4 дек 2007
    Сообщения:
    419
    Симпатии:
    285
    Как бе да.
    Смотря на сколько невалидный. С phpQuery пока не сталкивался с проблемой невалидного HTML.
    Почитай по той ссылке тот ответ, там много причин приведено, почему не стоит парсить regexp-ами html.
    Насчет всех не знаю, но phpQuery (jQuery порт на php) через DOM парсит.
     
  10. toty

    toty Постоялец

    Регистр.:
    1 авг 2011
    Сообщения:
    111
    Симпатии:
    2
    Еще раз скажу это: Plain text. Могу перегнать в любой формат.