Поделитесь информацией о написании парсеров.

Тема в разделе "Как сделать...", создана пользователем VIP2013, 11 май 2014.

  1. VIP2013

    VIP2013

    Регистр.:
    4 мар 2013
    Сообщения:
    203
    Симпатии:
    103
    Всем привет. Помогите информацией о написании парсеров. Думаю, что тут есть люди которые пишут их. Проблема в том, что у меня был портал и написали для него парсер, но донор постоянно изменяется и парсер через месяц перестает работать. Вот бы хотелось самому узнать что да как.
     
  2. Nei

    Nei Nosce te ipsum

    Регистр.:
    5 сен 2009
    Сообщения:
    616
    Симпатии:
    488
    Что конкретно интересует-то?
    Не существует какой-то инструкции от А до Я по написанию парсеров) Просто берёте какой-то парсер в качестве примера и разбираете как он работает. Это если есть знания ПХП, если нет - учите ПХП)
    В общем-то можно и без этих знаний подстраивать парсер под изменения вёрстки сайта-донора, но для этого чтобы можно было что-то советовать по этому поводу нужно видеть код этого парсера.
     
  3. Denixxx

    Denixxx

    Регистр.:
    7 фев 2014
    Сообщения:
    247
    Симпатии:
    194
    Обратитесь к человеку, что писал парсер, и попросите его (за деньги) сделать для парсера админку.
    В ТЗ к админке напишите, какие переменные на странице хотите менять вручную.
    Для парсера это обычно параметры запросов Get (для адреса страницы), теги и классы на странице, в которых хранятся данные.
    Сколько параметров парсить — подскажет таблица, куда надо данные загнать.
    Сколько там полей, столько и понадобится переменных распарсить из адреса.
     
  4. VIP2013

    VIP2013

    Регистр.:
    4 мар 2013
    Сообщения:
    203
    Симпатии:
    103
    А может есть универсальные парсеры, что бы самому переменные подставлять?
     
  5. zilon

    zilon

    Регистр.:
    30 июл 2011
    Сообщения:
    370
    Симпатии:
    147
    content downlouder очень мощный парсёр, но он дестопный и с ним тоже придётся разбиратся :)
     
  6. VIP2013

    VIP2013

    Регистр.:
    4 мар 2013
    Сообщения:
    203
    Симпатии:
    103
    а есть специалисты которые могут настроить за вознаграждение ?
     
  7. zilon

    zilon

    Регистр.:
    30 июл 2011
    Сообщения:
    370
    Симпатии:
    147
    да, Genk0 специалист в этом деле)
     
  8. Петр2014

    Петр2014 Писатель

    Регистр.:
    29 апр 2014
    Сообщения:
    4
    Симпатии:
    2
    Уточните, какой имеется опыт работы с php. Рекомендую начать с простых вещей: набросать собственный парсер на основе file_get_contents(), preg_match_all() и fopen(). Добиться его работоспособности на простых примерах. Проанализировать код того парсера, который сейчас у Вас есть, с помощью среды отладки и добиться уверенного понимания, что в какой момент происходит при выполнении кода. Сам пользуюсь средой NetBeans.

    После уже можно будет искать причины проблем в работе парсера при модификации донора и править код. У меня например были проблемы в парсинге ссылок. Не всякий парсер способен совладать с перезаписываемыми URL и ЧПУ.

    Может быть прав zilon, обращая Ваше внимание на десктопные аналоги.
     
    latteo нравится это.
  9. Denixxx

    Denixxx

    Регистр.:
    7 фев 2014
    Сообщения:
    247
    Симпатии:
    194
    Я недавно покупал такой — парсит диапазон страниц и складывает на сервере описания в текстовый файл, а картинки в папку.
    Но он был написан по моему ТЗ, как мне надо. Вам же нужно будет написать исходя из наличия полей в Вашей БД.
    Взял здесь — Перейти по ссылке
    Потом связался с автором, он допилил. Проверили как работает, на Я-маркете.
    В Вашем же случае всё работает, потому имхо проще админку написать, чем весь парсер с нуля.
     
  10. VIP2013

    VIP2013

    Регистр.:
    4 мар 2013
    Сообщения:
    203
    Симпатии:
    103
    уточню у админов можно ли выложить адрес сайта и ссылку на персер. Думаю так будет понятнее.