Как настроить content downloader?

Тема в разделе "Мегафлуд", создана пользователем klips06, 25 янв 2012.

  1. klips06

    klips06 Постоялец

    Регистр.:
    24 фев 2008
    Сообщения:
    76
    Симпатии:
    3
    Товарищи не знал куда написать решил тут ))) Народ кто общается с этой программой на ты ,помогите пожалуйста её настроить .... мне нужно спарсить вот этот магазин http://favoritaromat.ru/ (движок opencart ) со всеми товарами и выгрузить cvs файл и загрузить его соответственно в другой магазин тоже на opencart ...

    Подскажите как сделать правильно ,а то видео смотрел по этой программе пытался так же всё сделать ,столько всякой чуши лишней качает ,что то видать делаю не так ....

    Ещё раз заранее всем спасибо за помощь.
     
  2. Groof

    Groof Создатель

    Регистр.:
    27 янв 2012
    Сообщения:
    41
    Симпатии:
    8
  3. demmy

    demmy

    Регистр.:
    13 ноя 2006
    Сообщения:
    330
    Симпатии:
    96
    там структура сайта интересная и карты сайта нет
    по этому грабишь все ссылки, ставишь границу
    <div id="product_info"> и делаешь ее обязательной в итоге там где ее не будет страница будет пропускаться
     
    gor-rf нравится это.
  4. bork75

    bork75 Д☼брая собака )

    Регистр.:
    21 июн 2008
    Сообщения:
    1.449
    Симпатии:
    716
    Первым делом нужно смотреть на страницу с товарами - у них у всех есть общий признак, они имеют второй уровень вложенности (категория/название)
    Все остальные страницы - это либо сами категории, либо служебные страницы, поэтому в фильтре можно указать, что фильтровать по вложенности.

    Обычно в настройке сканера ссылок настраиваем сначала по каким страницам ходить - где могут быть ссылки на сами материалы (обычно это признак номеров страниц,
    типа page= или отдельный нужный раздел, и по каким не ходить - там где нет страниц и нефиг туда лезть, например раздел, который нам не нужен), а фильтр ссылок - это признак самого материала,
    т.е. что программе непосредственно собирать. - Это основа основ программы.

    Для этого сайта мы указываем только фильтр самого материала (уровень вложенности) - т.е. программа будет шерстить по всем ссылкам, но собирать только ссылки вида sait/yroven1/yroven2

    Запускаешь сканер на минуту и смотришь, правильно ли собирает, если часто встречается что-то лишнее, например версия для печати или левый раздел,
    то останавливаешь и добавляешь этот признак в исключения, например print=

    И так запускай, запускай, пока не начнёт нормально собирать только страницы материалов.
     
    gor-rf нравится это.