1. Начата процедура восстановления социальных групп. Лидерам старых и новых групп обязательно ознакомиться с регламентом проведения работ.

Cron или не крон использовать при серверном парсинге?

Тема в разделе 'Как сделать...', создана пользователем TopReseller, 5 фев 2012.

  1. Пишем техническое задание для парсера, уперся в проблему.
    Есть 100-200 страниц, с которые парсить нужно, а программист сказал что крон дает на работу скрипта 30 секунд и за это время список не успеет спарсить.
    Что посоветуете?
    Хотел запускать без крона, по событию, например посещение страницы пользователем.
    Тогда опять проблема - посещений мало и запускаться скрипт почти не будет, а забирать новости нужно постоянно.
  2. Zlobniy Babko aka Spaxy KOKC

    Moderator
    3й пост Как спарсить жж?

    TopReseller нравится это.
  3. Сделать в скрипте запись логов, поставить запуск скрипта, например, на каждую минуту и проверять работает ли скрипт, если работает - die(), чтобы не плодить кучу работающих копий, если не работает, смотреть последнюю отработанную задачу (записывать это в лог) и начинать после нее. Все, не будет потерь и ограничения по времени работы скрипта не будут критичны.
    TopReseller нравится это.
  4. Но как это запускать? По крону или по событию (по какому тогда?)? Или существуют другие варианты?
  5. недавно разбирался с форумом vbulletin, грубо говоря там на каждой странице подгружается сгенерированная картинка 1х1px.
    что то типа такого <img src="cron.php?rnd=123456">
    а в коде cron.php выполняются задания, в твоем случае парсер
    TopReseller нравится это.
  6. подгружает картинку то при посещении страницы, а посещаемость очень маленькая и это не подойдет
  7. По крону. Я крон имел ввиду.
    TopReseller нравится это.
  8. Очевидно крон - самое правильное решение. И нет привязки к трафику. Крон пусть запускает скрипт, который определяет текущее состояние и запускает или не запускает соответствующую задачу. Через логи или еще как - это уже вопрос другой. Скажите программеру - пусть не ленится :)
    TopReseller нравится это.
  9. Обманывает вас программист. Время выполнения скрипта задается настройками РНР.
    TopReseller нравится это.
  10. Решили работать с логом через крон, как советовал SkiLLer
    На обычном хостинге не дают править настройки, и пользуемся тем что есть, а там выставлено 30 сек :)