[Ищу] Ищу скрипт/паук для парсинга страниц сайта

Статус
В этой теме нельзя размещать новые ответы.

seoadr

Постоялец
Регистрация
22 Апр 2007
Сообщения
128
Реакции
22
собственно в идеале так:
ввожу домен
_http://www.domain.com/
а на выходе файлик с урлами страниц нужного сайта.

короче чтоб он пробегал по всем ВНУТРЕННИМ ссылкам на странице сайта
и на выходе база с урлами этого сайта.
 
Нужен именно скрипт? или подойдет десктопное приложение?
В принципе можно реализовать что-то похожее на TeleportPro...
 
Нужен именно скрипт? или подойдет десктопное приложение?
В принципе можно реализовать что-то похожее на TeleportPro...

да нужен именно скрипт, т.к. грабить намереваюсь сайты по 100.000 пагов примерно

Добавлено через 6 минут

этот скрипт просто грабит линки со страници, а это может стандартный firefox в "информацие о странице".

нужно чтобы он дальше пошел....
по всем ссылкам.
потом все внутренние добавлял бы в файлик.
дальше шел бы по ним.....
и т.д.
естественно что бы 1 страницу 2 раза не просматривал.
на выходе получаю все урлы сайта.

пример:
на подобе работает робот sape.ru когда сайт добавляешь.
 
Ничего путного я вам предложить не могу, но мой долг Вам намекнуть об огромных ресурсных затратах, которые должны присутствовать у Вашего сервера для этих маневров.

Офф_топик: Я когда спарсил порядка 10 сайтов (тестировал на локальном сервере) на глубину в 4 шага от главной страницы, из которых 4 сайта были большие порталы с форумами, то у меня контента получилось ~250Мб. Это учитывая, что происходила вырезка рекламы, тэгов, коротких слов... А машина тормозила - ужас как...
В общем в свое время хотел сделать мини_яндекс для сайтов своего района. Что бы по крону их переиндексировал, осуществлял поиск по своей набранной БД.
В общем я отказался от столь безумной идеи...
 
wget тебе поможет. :)
 
да затраты точно не маленькие будут
 
А вообще, вообще, если умеете парсить гуглю, то вот мой совет:
Забейте с поисковую строку запрос вида: site:требуемый_сайт.com.

И наш гугля отдаст на растерзнание все линки, которые есть у него в БД, собственно именно, о чем Вы просили в первом посте...
 
Онлайн сервисы. Возможно подойдут. Не уверен, что смогут поднять такой объем ссылок, все же попробуй.

Sitemap Creator is helpful tool for webmasters. Almost every webpage is providing sitemap. You can create sitemap manually or automatically with this tool. The best way is: first, start with Sitemap Creator, get results and adjust them according to your wishes.




 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху