Насколько сложно написать краулер?

Altair-Z · 4 Июл 2010

Хочется написать паука который будет идти на указанный сайт, погуляет по ссылкам, и сохранит страницы в текстовом виде в папке возле себя.
Вопрос: насколько это сложно?
может у кого есть такой скриптик?

пс. Где-то видел на нулледе скрипт поисковой системы, но это слишком круто

Digwnews · 4 Июл 2010

А какой вы ответ хотите? Типа сложно, не беритесь?

Типа телепорта в серверном виде нужно?

Altair-Z · 4 Июл 2010

Digwnews написал(а):
Типа телепорта в серверном виде нужно?

Ну например с помощью курла можно заставить скрипт пойти на сайт и заполнить форму (во многих реггерах реализовано)
а как заставить его гулять по ссылкам, и сохранять текст с сайта? Именно текст, а не всю страницу целеком.

komyak · 4 Июл 2010

А чем Для просмотра ссылки Войди или Зарегистрируйся не устраивает?

Google.com · 4 Июл 2010

Первым делом нужно отделить шаб от контента. Т.е. определяются одинаковые части хтмл кода на нескольких страницах сайта. То что меняется - контент, остальное - шаб.
Но тут много нюансов, к примеру если на одном сайте большинство страниц имеют разную структуру.

Digwnews · 4 Июл 2010

Altair-Z написал(а):
Ну например с помощью курла можно заставить скрипт пойти на сайт и заполнить форму (во многих реггерах реализовано)
а как заставить его гулять по ссылкам, и сохранять текст с сайта? Именно текст, а не всю страницу целеком.

Текст именно смыслового содержания - никак. А просто весь текст легко. Тупо получаете хтмл код с помощью курла и удаляете все теги с помощью, например, strip_tags().
Ну сохранять думаю не проблема, а вот насчёт гуляния по ссылкам - перед удалением тегов спарсите все ссылки и найдите внутринние - затем цикл по ним с теми же операциями.

EFL · 4 Июл 2010

Парсим все ссылки с главной страницы, переходим по ним, парсим ссылки с этих страниц, переходим по ним и так пока страницы не кончатся. А чтобы они кончились нужно те урлы по которым уже скрипт пробегал заносить в БД, массив, или тхт файл к примеру.

Для парсинга элементов страницы(ссылок текста) можно использовать либу

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

.
С ней можно настроить парсинг любой сложности

Digwnews · 4 Июл 2010

EFL написал(а):
Парсим все ссылки с главной страницы, переходим по ним, парсим ссылки с этих страниц, переходим по ним и так пока страницы не кончатся. А чтобы они кончились нужно те урлы по которым уже скрипт пробегал заносить в БД, массив, или тхт файл к примеру.
Для парсинга элементов страницы(ссылок текста) можно использовать либу *** скрытое содержание ***.
С ней можно настроить парсинг любой сложности

С этой либой были некоторые проблемы с парсингом невалидных страниц.
А вот регулярка для выдирания всех ссылок со страницы.

Код:

~<a.*?href="([^"]+)".*?>(.*?)</a>~s

Altair-Z · 4 Июл 2010

За регулярку спасибо
вот нашел стройматериалы у буржуев (допиливать час-два), и функций полно и реализация не сложная
допилю - выложу, может пригодится кому)

EFL · 5 Июл 2010

Digwnews написал(а):
С этой либой были некоторые проблемы с парсингом невалидных страниц.
А вот регулярка для выдирания всех ссылок со страницы.

Код:

~<a.*?href="([^"]+)".*?>(.*?)</a>~s

Есть пример страницы? За пол года использования пока-что косяков не находил

Насколько сложно написать краулер?

Altair-Z

Создатель

Digwnews

Читатель

Altair-Z

Создатель

komyak

Постоялец

Google.com

Читатель

Digwnews

Читатель

EFL

Гуру форума

Digwnews

Читатель

Altair-Z

Создатель

EFL

Гуру форума