Cron или не крон использовать при серверном парсинге?

Тема в разделе "Как сделать...", создана пользователем TopReseller, 5 фев 2012.

  1. TopReseller

    TopReseller

    Регистр.:
    30 июл 2011
    Сообщения:
    321
    Симпатии:
    113
    Пишем техническое задание для парсера, уперся в проблему.
    Есть 100-200 страниц, с которые парсить нужно, а программист сказал что крон дает на работу скрипта 30 секунд и за это время список не успеет спарсить.
    Что посоветуете?
    Хотел запускать без крона, по событию, например посещение страницы пользователем.
    Тогда опять проблема - посещений мало и запускаться скрипт почти не будет, а забирать новости нужно постоянно.
     
  2. Дмитрий Кесаев

    Дмитрий Кесаев aka Zlobniy Babko

    Заблокирован
    Регистр.:
    10 май 2007
    Сообщения:
    1.332
    Симпатии:
    1.266
    3й пост Как спарсить жж?

    «Snoopy» — это класс, предназначеный для имитации веб-браузера. Он позволяет упростить отправку форм и получение кода HTML-страниц посредством PHP. Данный класс является хорошей альтернативой «CURL». К сожалению, официальной онлайн-документации я так и не нашёл, но в Интернете есть множество статей по использованию данного класса.
     
    TopReseller нравится это.
  3. SkiLLer

    SkiLLer

    Регистр.:
    22 авг 2007
    Сообщения:
    307
    Симпатии:
    64
    Сделать в скрипте запись логов, поставить запуск скрипта, например, на каждую минуту и проверять работает ли скрипт, если работает - die(), чтобы не плодить кучу работающих копий, если не работает, смотреть последнюю отработанную задачу (записывать это в лог) и начинать после нее. Все, не будет потерь и ограничения по времени работы скрипта не будут критичны.
     
    TopReseller нравится это.
  4. TopReseller

    TopReseller

    Регистр.:
    30 июл 2011
    Сообщения:
    321
    Симпатии:
    113
    Но как это запускать? По крону или по событию (по какому тогда?)? Или существуют другие варианты?
     
  5. unsiker

    unsiker

    Регистр.:
    6 июн 2008
    Сообщения:
    465
    Симпатии:
    172
    недавно разбирался с форумом vbulletin, грубо говоря там на каждой странице подгружается сгенерированная картинка 1х1px.
    что то типа такого <img src="cron.php?rnd=123456">
    а в коде cron.php выполняются задания, в твоем случае парсер
     
    TopReseller нравится это.
  6. TopReseller

    TopReseller

    Регистр.:
    30 июл 2011
    Сообщения:
    321
    Симпатии:
    113
    подгружает картинку то при посещении страницы, а посещаемость очень маленькая и это не подойдет
     
  7. SkiLLer

    SkiLLer

    Регистр.:
    22 авг 2007
    Сообщения:
    307
    Симпатии:
    64
    По крону. Я крон имел ввиду.
     
    TopReseller нравится это.
  8. exhumer

    exhumer Создатель

    Регистр.:
    9 янв 2012
    Сообщения:
    10
    Симпатии:
    12
    Очевидно крон - самое правильное решение. И нет привязки к трафику. Крон пусть запускает скрипт, который определяет текущее состояние и запускает или не запускает соответствующую задачу. Через логи или еще как - это уже вопрос другой. Скажите программеру - пусть не ленится :)
     
    TopReseller нравится это.
  9. SiZE

    SiZE Постоялец

    Регистр.:
    31 янв 2010
    Сообщения:
    51
    Симпатии:
    10
    Обманывает вас программист. Время выполнения скрипта задается настройками РНР.
     
    TopReseller нравится это.
  10. TopReseller

    TopReseller

    Регистр.:
    30 июл 2011
    Сообщения:
    321
    Симпатии:
    113
    Решили работать с логом через крон, как советовал SkiLLer
    На обычном хостинге не дают править настройки, и пользуемся тем что есть, а там выставлено 30 сек :)