[Помощь] Помогите спарсить интернет магазин

Тема в разделе "Интернет-магазины", создана пользователем dvd_xaker, 30 окт 2011.

  1. dvd_xaker

    dvd_xaker Постоялец

    Регистр.:
    27 сен 2011
    Сообщения:
    132
    Симпатии:
    14
    Есть интернет магазин shop_._firma-gamma_._ru_.
    Никак не могу понять как его спарсить Content Downloader.
    Во-первых весь товар там не по порядку. Пример: http://shop.firma-gamma.ru/good/2874296472 <- не понятно как формируется ссылка.
    Во вторых при анализе сайта выдает всего лишь чуть более 500 страниц, а я прекрасно знаю что их там не менее 5к.
    В третих весь товар в категории подружается Ajax и если брать ссылку из первого пункта не понятно из какой он категории.
    Не могу сообразить как. Подскажите пожалуйста
    Извиняюсь если не туда. Но реально не нашел куда кинуть тему.
     
  2. smithws

    smithws

    Регистр.:
    19 июн 2008
    Сообщения:
    481
    Симпатии:
    153
    Вроде в этой программе сначала надо ссылки спарсить с карты сайта, а затем уже включать сам парсинг.
    Но в этом магазе по ссылке /sitemap.xml нет карты.
    Возможно она под другим именем.
    А так алгоритм такой -вбиваешь карту, прога выдергивает оттуда все ссылки и начинаешь парсить.
    Как-то так.
     
  3. dvd_xaker

    dvd_xaker Постоялец

    Регистр.:
    27 сен 2011
    Сообщения:
    132
    Симпатии:
    14
    В том и проблема при сдергивание ссылок с сайта он выдает всего лишь около 500... это проблема номер один!
     
  4. thoth777

    thoth777

    Регистр.:
    28 ноя 2008
    Сообщения:
    314
    Симпатии:
    98
    http://yandex.ru/yandsearch?text=good&clid=46510&lr=213&site=firma-gamma.ru

    яндекс в помощь же
     
    dvd_xaker нравится это.
  5. zzallexx

    zzallexx

    Регистр.:
    11 июн 2008
    Сообщения:
    1.036
    Симпатии:
    699
    яндекс больше 1000 все равно не отдастпарси отсюда http://www.fabrics.ru/ это какбы старая версия магаза без всяких аяксов
     
    dvd_xaker нравится это.
  6. dvd_xaker

    dvd_xaker Постоялец

    Регистр.:
    27 сен 2011
    Сообщения:
    132
    Симпатии:
    14
    Спасибо за решение. Это пробовал уже тока по другому...
    Это страница чисто товара и здесь нету категории откуда товар. Выдрать чисто 5-6к товара без категорий можно конечно но сами понимаете сидить потом разносить по категориям проблематично.
    К примеру возмем эту страницу(категорию) с товаром
    http://shop.firma-gamma.ru/opentree/5192053872/
    В идеале надо расскрыть список а дальше проблем не должно быть. Буду пробовать. Может кто нибудь еще посоветует.

    Добавлено через 1 минуту
    В старой версии нету доп параметров + изображений доп параметров. Точнее есть но без изображений параметров то есть цветовой гаммы. И причем к сожалению у каждого цветовая гамма свой(точнее их несколько гамм на разные категории, не у всех показано((()
    Поэтому приходиться именно новой пользоваться

    Хотя старую посмотреть парсер уже более 11к выдал. ЕСли будут еще вопросы напишу)
     
  7. thoth777

    thoth777

    Регистр.:
    28 ноя 2008
    Сообщения:
    314
    Симпатии:
    98
    http://shop.firma-gamma.ru/search/?query=%E0

    ищете все на букву а
    потом б
    потом в
    и так далее

    парсите поиск
     
  8. dvd_xaker

    dvd_xaker Постоялец

    Регистр.:
    27 сен 2011
    Сообщения:
    132
    Симпатии:
    14
    Решил парсить старую версию.
    Думал все норм но тут увидел интересные ссылки)
    http://www.fabrics.ru/gdetail.php?&g=1527919622&start=20
    То есть типа разные модификации товара не влазят на страницу)
    и добавляется обычный параметр start=20.
    Терь вопрос как при парсинге проверить если 2 страница или нет и если есть открыть ее и добавить параметры к предыдущему?

    У некоторых вообще несколько страниц http://www.fabrics.ru/gdetail.php?&g=3876565202&start=100
    По поводу парсинга поиска не вижу целесообразности. Так как будет прилично дублежа товара 100%.
     
  9. thoth777

    thoth777

    Регистр.:
    28 ноя 2008
    Сообщения:
    314
    Симпатии:
    98
    артикул товара уникален же
    по нему и группируйте.
     
  10. dvd_xaker

    dvd_xaker Постоялец

    Регистр.:
    27 сен 2011
    Сообщения:
    132
    Симпатии:
    14
    В принципе спарсил все товары получилось больше 12к но это со страницами параметров.
    Все норм дальше идет. Только реально пока не пойму как спарсить в одну и туже группу определенного товара 2 и последующие страницы.
    Применять GetMoreContent?
    По поводу артикула: там у 40% товара вообще его нет)