[Помогите] Доработать плагин парсинга сайтов

Тема в разделе "Wordpress", создана пользователем Dark Wizard, 2 фев 2014.

Модераторы: DzSoft, Sorcus
  1. Dark Wizard

    Dark Wizard

    Регистр.:
    23 сен 2007
    Сообщения:
    157
    Симпатии:
    76
    Сделал простой плагин-парсер - указываем список url и рубрику - получаем готовые новости с данными из заголовка и мета-тегов.

    Нужно доработать, чтобы за раз можно было обрабатывать много url (несколько тысяч), чтобы скрипт не вылетал из-за таймаута на выполнение у хостера. И чтобы при какой-то ошибке скрипт не останавливался, а помечал сайт красным и продолжал работу.

    Другими словами, думаю можно сделать ajax запросом по одному адресу, и добавлять результат в слой с результатами. Но через jquery.form.js не получается, а как по-другому сделать не знаю...

    Скрипт прикладываю (чтобы в базу добавлялось, можно раскомментировать строку "//wp_insert_post($source);")
     

    Вложения:

  2. jDony

    jDony Создатель

    Регистр.:
    25 янв 2014
    Сообщения:
    41
    Симпатии:
    40
    1. Используй http://ru.php.net/manual/ru/function.curl-multi-exec.php вместо file_get_contents
    2. Поставь set_time_limit(0), init_set('max_execution_time', 0) в начало скрипта.
    3. Чтобы помечать урл как неудачный - необходимо во-первых отлавливать этот момент. У тебя обработки ошибок никакой нет. Добавь проверку после получения ответа от сервера.
    Так сделай 1 скрипт монитор, и 1 воркер.
    При запуске скрипта - будет запускаться воркер, и воркер же будет писать в бд\сессию\файл текущий статус.
    Ну а дальше, простым ajax запросом на скрипт монитор ты будешь получать данные статусы.
     
  3. Dark Wizard

    Dark Wizard

    Регистр.:
    23 сен 2007
    Сообщения:
    157
    Симпатии:
    76
    Можно, поподробнее?
     
  4. GRiNGA

    GRiNGA Создатель

    Регистр.:
    20 дек 2009
    Сообщения:
    27
    Симпатии:
    0
    Интересный плагин. Как раз искал что-то подобное для парсинга сайтов. Скажите, он сразу способен добавлять статьи на сайт или он записывает спарсенный контент в какую-то базу, с которой потом ещё предстоить работать (импортировать) ?
     
  5. komyak

    komyak

    Регистр.:
    4 фев 2009
    Сообщения:
    484
    Симпатии:
    185
    хз, пробуй запускать скрипт через http://www.php.net/manual/ru/function.exec.php т.е. через командную строку. Или пусть обрабатывается через рефреш, но это если скрипт работает из браузера.
     
  6. BoyNG

    BoyNG Создатель

    Регистр.:
    16 июл 2007
    Сообщения:
    9
    Симпатии:
    1
    а что нибудь подобное есть, но с выводом в файлы и подпапки?
    нужно запарсить по именам папок и спарсеное положить в текстовый файл в эти папки
    или может кто уже доработал текущий скрипт?
     
  7. Dark Wizard

    Dark Wizard

    Регистр.:
    23 сен 2007
    Сообщения:
    157
    Симпатии:
    76
    Я всё-таки купил Datacol и заказал для него проект - в целом работает, но без скриншотов.
     
  8. redzhet

    redzhet Создатель

    Регистр.:
    28 июл 2011
    Сообщения:
    14
    Симпатии:
    0
    А есть такой чтоб контент парсил?
     
  9. CHADREX

    CHADREX Психопат

    Регистр.:
    12 янв 2014
    Сообщения:
    530
    Симпатии:
    205
    Есть, называется wpgrabber, если интересует могу продать за полцены.
     
  10. redzhet

    redzhet Создатель

    Регистр.:
    28 июл 2011
    Сообщения:
    14
    Симпатии:
    0
    за сколько?
    и откуда парсит?