Ищу Парсер товаров Joomla + Virtuemart

Originally Posted by pehota Для просмотра ссылки Войди или Зарегистрируйся
Кстати, есть еще такая штука, но к сожалению в паблике ее нет: Для просмотра ссылки Войди или Зарегистрируйся

жаль что в ней нету экспорта в Joomla + Virtuemart

E-Trade Content Creator поддерживает Virtuemart в виде внешнего модуля, т.е. можно парсить описания для Virtuemart.
 
Здравствуйте а есть аналог этой программы в бесплатной версии или в платной но без ограничения на страницы
 
А вот еще одно чудо)))
Чудо оно чудное, только я потратил 3 часа, а результат нулевой (так и не захотела эта програмулина работать так, как мне надо). Может кто подскажет чем или как можно пропарсить этот сайт???
Скрытое содержимое доступно для зарегистрированных пользователей!
Хотелось, что бы это было сделано по категориям (интересуют только некоторые)
Заранее благодарен.
 
  • Заблокирован
  • #24
что настроите, то и получите.
смотрите в приложении:
1. файл проекта для web content extractor
2. файл csv результатов грабинга категории gps-навигаторов сайта yugcontract.ua. разделитель - точка с запятой! требуется указать при открытии файлы, чтобы посмотреть в виде таблицы, а не сплошным текстом.
использовался web content extractor версии 4.0
настройка делалась, что называется "на скорую руку", чтобы показать, как это работает.
замечания по сайту-донору:
1. информация представлена большими текстовыми блоками, в описание взят просто один большой блок, туда попали заголовки и некоторое количество мусора. это можно дальше регулировать, подбирая входные теги для граббинга. на эту тему здесь не заморачивался.
2. техническая информация по моделям неоднородна в том смысле, что если информации в каком-то поле нет, то это поле не выводится, а следующие за ним поднимаются выше. в приаттаченном примере видно, как это отражается на результатах - с определенного момента некоторые колонки "съехали" влево.
я специально не правил это, чтобы показать результаты, как они есть. в тех колонках, что съехали, нужно вставить недостающие ячейки, где необходимо, и они выровгняются под остальные.
был другой вариант - сграбить всю техническую информацию в одно поле результатов, чтобы потом разбирать в офлайне. мне кажется, так как сделано сейчас удобнее - меньше ручной работы при обработке.
впрочем, каждый сам решает, как ему удобнее.
3. коль скоро было сказано, что информация с донора нужна по разделам, то в качестве входной страницы указан страница раздела gps-навигаторов, соответственно, экстрактор никуда дальше не лез, и сграбил все модели этого раздела.
можно точно так же сделать по другим разделам, а можно указать просто титул сайта, чтобы экстрактор обошел все страницы.
но в последнемс случае нужно писать исключения, чтобы он впустую не молол ненужные страницы, перетаскивая мегабайты информации и - главное - попусту тратя время.
поскольку экстрактор в целом работает не очень быстро, последнее важно, особенно когда инфы много.
4. картинка указана линком из закладки "внешний вид". вместо линка можно указать, что нужен сам файл, он тогда стащит и картинку, и положит в заданную папку.
короче, смотрите, как сделано, и можете повторять. повторюсь, что это очень простой пример, сделанный на скорую руку. соответственно, можно дальше настраивать сколь угодно тоонко, чтобы получить именно те результаты, которые нужны. для пример "от балды" это было бы уже слишком - вылизывать проект.
думаю, потом как-нибудь сделаю видео по грабингу с маркета - там вообще структура идеальная для web content extractor - можно сгенерировать либо список всех страниц с товарами в разделе, и тупо их всех обойти, тогда просто отменяется переход по линкам, и он уже никуда больше не лезет, только собирает инфу с тех страниц, что заданы. либо можно указать в качестве входной страницы первую страницу поиска по разделу, и он обойдет все найденные страницы. дело вкуса. в последнем случае нужно просто задать ограничения по передвижению, чтобы не лез куда не требуется.

p.s. коль скоро речь идет о сборе инфы по разделам, то в настройках можно указать граббинг сначала в глубину, а потом в ширину. в этом примере я не отмечал, там всего одна страница, не принципально.
p.p.s. как потом распарсить награбленное, в частности под джумлу - уже следующий вопрос. можно просто в csv сохранить, и экселем раскидать под импорт, можно с сохранением в базу заморочиться; кому как нравится.
 

Вложения

  • yugcontract_ua_gps.zip
    44,5 KB · Просмотры: 111
Моей благодарности нет границ. Снимаю шляпу перед вашим мастерством. Сегодня попытаю счастье опять. Вопрос только - где взять web content extractor версии 4.0???? На сайте максимум видел версию 3.2
 
  • Заблокирован
  • #26
Моей благодарности нет границ. Снимаю шляпу перед вашим мастерством. Сегодня попытаю счастье опять. Вопрос только - где взять web content extractor версии 4.0???? На сайте максимум видел версию 3.2

взуально ничего не изменилось. не знаю, насколько они движок доработали.
триал доступен на офсайте.
купленная в складчину регистрация на версию 3 адекватно применяется к версии 4 - новое окошко для ввода регистрационного кода остается пустым, но хелп показывает, что зарегистрировано.
в плане функционала работает так же, так что юзайте 3, если у вас стоит 3.
 
Народ, имеет ли смысл продолжать работу над однопоточным парсером ЯндексМаркета, заточенным под Virtuemart? Результат в CSV, картинки автоматом по ФТП загружаются на сайт. Делал для себя, для наполнения магазинчика, куча багов, но работать можно =))

Конечно имеет смысл! Только лучше наверное многопоточным его сделать.

И еще вопрос - как яндекс потом проиндексировал твой магазинчик, контент то весь не уникальный как я понимаю получился?
 
  • Заблокирован
  • #28
по грабингу с яндекса вот написал, кому интересно:



в виртумарт не парсил, но в принципе можно импортировать через csv, либо написать в web content extractor выгрузку в мускул...
 
В виртумарт всё прекрасно импортируется из экселя. Немного предварительной работы копипастом и через CSVI влетает всё на ура.
 
Назад
Сверху