передрать сайт

Статус
В этой теме нельзя размещать новые ответы.

kay05

Создатель
Регистрация
31 Май 2007
Сообщения
20
Реакции
2
не знаю в этот ли раздел мой вопрос..
есть сайт производителя с обильным каталогом картинок товаров, нужно сделать базу данных картинок для своего сайта. ходить по ссылкам и сохранять забодаюсь. мож какие скрипты есть, которые все по полочкам разложат у меня на диске?
 
универсальных скриптов не бывает,
скорее всего придется писать скрипт, заточенный под парсинг конкретного сайта
 
  • Заблокирован
  • #3
не знаю в этот ли раздел мой вопрос..
есть сайт производителя с обильным каталогом картинок товаров, нужно сделать базу данных картинок для своего сайта. ходить по ссылкам и сохранять забодаюсь. мож какие скрипты есть, которые все по полочкам разложат у меня на диске?

 
Готового под конкретный сайт не найдешь...
Кидай урл и описание того, что надо забрать и куда/как положить =)
 
Из десктопных программ, насколько я знаю, Teleport Pro хорошо справляется с этой задачей.
Но вот со скриптом, для такой задачи, действительно сложно.
 
что бы не парится с рекурсией используй простой вызов системных утилит из своего скрипта

man wget тебе в помощь
Использование а-ля "Teleport Pro for Linux"
При скачивании веб-сайтов возможностей больше, и поэтому требуется больше ключей. Опять-таки, запоминать их все не обязательно, можно сделать скрипт (а лучше несколько - под разные случаи) и вызывать их.
Так вот, если имеется веб-сайт, и хотелось бы иметь его локальную копию на компьютере, чтобы, отключившись от сети, можно было не торопясь его почитать.

Зеркалирование сайтов на локальную машину:
wget -m Для просмотра ссылки Войди или Зарегистрируйся

Замечу, что при этом ссылки останутся абсолютными - то есть, будут указывать на Интернет-адреса, и удобно просматривать на локальной машине будет затруднительно.


Копирование сайта для локального просмотра:
wget -r -l0 -np -k Для просмотра ссылки Войди или Зарегистрируйся

При этом будет включена рекурсивная выгрузка (ключ -r, --recursive), то есть не только файлы с главной страницы, но и все остальные, на которые ведут ссылки (ключ -l0 бесконечная вложенность ссылок). Имена ссылок будут переконвертированы в локальные для удобства просмотра (ключ -k). Так же при помощи ключа -np (no-parrent) можно запретить wget подниматься выше начального адреса при рекурсивной загрузке, то есть если вы копируете Для просмотра ссылки Войди или Зарегистрируйся то по ссылкам с основного сайта Для просмотра ссылки Войди или Зарегистрируйся скопированы не будут.
 
  • Заблокирован
  • #8
детальней по каждому пункту можно, если не затруднит?

извиняюсь, я была невнимательна.
оказывается речь идет только о картинках..
Мне по привычке, подумалось о большем.

Ты говоришь, что картинок много. А ты продумал, куда ты их будешь девать? тупо слить (т.е. мехаически) в одну папку на свой локал?

Тогда, если позволяет сеть и не хочешь никого просить бери прогу типа Teleport, которая выкачает тебе все.

если в свой новый сайт, то будет двойная работа. Тогда нужен парсер...ммм..который в нужном месте возьмет и в нужное место положит.автоматически) если по-простому...

Об остальном умолчу:)
 
Можно поставить снифер и походить по этому сайту, записать и отметить для себя процесс получения картинки, потом или во время этого процесса вам нужно будет воссоздать этот процесс с помощью php и curl. То есть к примеру скриптом получаешь главную страницу, ищешь ссылки на товарные позиции, получаешь таблицу ссылок, проходишь по каждой, парсишь имя позиции, парсишь картинки, заружаешь результат к себе в mysql базу.
 
слить контент с сайта можна Portable Offline Browser указывать подуровни, можна слить все или выборочно.. :ay:
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху