Cron или не крон использовать при серверном парсинге?

TopReseller

Постоялец
Регистрация
30 Июл 2011
Сообщения
337
Реакции
131
Пишем техническое задание для парсера, уперся в проблему.
Есть 100-200 страниц, с которые парсить нужно, а программист сказал что крон дает на работу скрипта 30 секунд и за это время список не успеет спарсить.
Что посоветуете?
Хотел запускать без крона, по событию, например посещение страницы пользователем.
Тогда опять проблема - посещений мало и запускаться скрипт почти не будет, а забирать новости нужно постоянно.
 
  • Заблокирован
  • #2
3й пост Как спарсить жж?

«Snoopy» — это класс, предназначеный для имитации веб-браузера. Он позволяет упростить отправку форм и получение кода HTML-страниц посредством PHP. Данный класс является хорошей альтернативой «CURL». К сожалению, официальной онлайн-документации я так и не нашёл, но в Интернете есть множество статей по использованию данного класса.
 
Сделать в скрипте запись логов, поставить запуск скрипта, например, на каждую минуту и проверять работает ли скрипт, если работает - die(), чтобы не плодить кучу работающих копий, если не работает, смотреть последнюю отработанную задачу (записывать это в лог) и начинать после нее. Все, не будет потерь и ограничения по времени работы скрипта не будут критичны.
 
Сделать в скрипте запись логов, поставить запуск скрипта, например, на каждую минуту и проверять работает ли скрипт, если работает - die(), чтобы не плодить кучу работающих копий, если не работает, смотреть последнюю отработанную задачу (записывать это в лог) и начинать после нее. Все, не будет потерь и ограничения по времени работы скрипта не будут критичны.
Но как это запускать? По крону или по событию (по какому тогда?)? Или существуют другие варианты?
 
По крону или по событию (по какому тогда?)?
недавно разбирался с форумом vbulletin, грубо говоря там на каждой странице подгружается сгенерированная картинка 1х1px.
что то типа такого <img src="cron.php?rnd=123456">
а в коде cron.php выполняются задания, в твоем случае парсер
 
подгружает картинку то при посещении страницы, а посещаемость очень маленькая и это не подойдет
 
Но как это запускать? По крону или по событию (по какому тогда?)? Или существуют другие варианты?
По крону. Я крон имел ввиду.
 
Очевидно крон - самое правильное решение. И нет привязки к трафику. Крон пусть запускает скрипт, который определяет текущее состояние и запускает или не запускает соответствующую задачу. Через логи или еще как - это уже вопрос другой. Скажите программеру - пусть не ленится :)
 
Решили работать с логом через крон, как советовал SkiLLer
Обманывает вас программист. Время выполнения скрипта задается настройками РНР.
На обычном хостинге не дают править настройки, и пользуемся тем что есть, а там выставлено 30 сек :)
 
Назад
Сверху