Как последовательно обойти все страницы сайта

Статус
В этой теме нельзя размещать новые ответы.

verfaa

Профессор
Регистрация
29 Янв 2007
Сообщения
416
Реакции
49
Привет. Есть сайт с большим количеством страниц - ок. 1000
Необходимо зайти скриптом на каждую страничку сайта и совершить какое-то действие, например спарсить кусок контента регуляркой.
Т.е.:

Подключаемся к сайту.
Заходим на страницу.
Парсим и сохраняем контент в переменную
Переходим на другую страницу.
Парсим и сохраняем контент в переменную

и так все страницы. Также необходимо обеспечить, чтобы одна и таже страничка не обрабатывалась дважды.
Буду благодарен за примеры кода с комментариями.
 
Надо составлять дерево сайта. То есть, зашли на главную страницу, добавили главную страницу в вершину деревва, далее ищем все ссылки на странице, которые ведут на этот же сайт, и которых еще нет в дереве, от этой вершины строим дочерние ветви - наши новые ссылки. Потом переходим по очереди на какждую ссылку (ветвь дерева) и повторям алгоритм.

P.S. если на сайте есть карта ресурса, то можно схитрить, и просто спарсить все ссылки с нее.
 
Нет, карты на сайте нет. Вот составить дерево сайта для меня и составляет трудность. Что-то не могу понять, как можно составить дерево сайта средствами пхп. Прошу помочь с кодом.
А если бы у меня был бы список всех страниц сайта, то я бы циклом каждую страничку обошёл сделал то что мне нужно было бы.
 
например скачать с wget весь сайт
PHP:
$p = shell_exec('wget --wait=20 --limit-rate=20K -r -b -P/home/sitedump -U Mozilla http://www.nulled.cc');

и потом распарсить все файлы
 
Самый простой способ это использовать прогу для создания карты сайта или онлайн сервис. Так получишь все линки, далее думаю понятно. Скармливаешь линк скрипту и он делает все нужные тебе действия
 
Если сайт индексируется и страниц меньше 500, то можно доверится например гуглу - site:sitename.com - и получить список ссылок с него, которые затем скормить твоему скрипту
 
Если сайт индексируется и страниц меньше 500, то можно доверится например гуглу - site:sitename.com - и получить список ссылок с него, которые затем скормить твоему скрипту

Бредовый вариант. Для этого нужно знать что гугл проиндексировал все страницы, или тогда с уверенностью что ты изменяешь все нужные тебе файлы можно попрощаться
 
  • Заблокирован
  • #10
Тебе помогут

Либо ищешь скрипт рекурсивного обхода директорий, и переделываешь его...
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху