Лиса и виноград, или сбор товарных баз для Интернет-магазина

Тема в разделе "Интернет-магазины", создана пользователем Cimmerian, 6 сен 2010.

Статус темы:
Закрыта.
  1. Cimmerian

    Cimmerian Читатель

    Заблокирован
    Регистр.:
    6 ноя 2006
    Сообщения:
    1.624
    Симпатии:
    343
    здравствуйте, уважаемые форумчане.
    хочу обсудить вопрос сбора баз данных для интернет-магазинов.
    во-первых, для чего людям нужны такие базы?
    понятно, что от поставщиков обычно фиг допросишься вменяемых описаний.
    но вот народ спрашивает, нет ли той или иной базы - это именно для этого, или есть какое-то другое использование?

    далее, часто жалуются на то, что не получается сграбить базы маркета (отсюда и басня в заголовке) - товар, вроде, вот он, а как его перезалить в свою базу - не понятно.

    очевидно, что базы маркета - первое, что приходит на ум. наверное, это не смое лучшее, что может быть, и не самое полное. но оно есть, и начинать, наверное, целессобразно именно с него. Или нет?

    В общем, я для пробы взял один из разделов маркета, а именно тот, что лежал поближе. то есть попросту раздел фотообъективов.

    использовал web content extractor версии 4.0, и вот что получилось.

    Перейти по ссылке

    это базовая информация. та, что на маркете идет с жестко зафиксированным количеством полей.

    описание к ней такое:

    Товарная база данных по фотообъективов Market.Yandex.ru по состоянию на 6 сентября 2010 года.

    База содержит описания и изображения по 566 моделям фотообъективов.

    Базовое описание включает:
    - Название
    - Изображение (в xls файле - название файла изображения)
    - Средняя цена
    - Минимальная цена
    - Максимальная цена
    - Тип объектива
    - Фокусное расстояние
    - Диафрагма
    - Минимальная диафрагма
    - Тип крепления объектива
    - Автофокус (есть/нет)
    - Макрорежим (есть/нет)


    Перейти по ссылке

    это все картинки ко всем моделям.

    то есть этот экселевский файл и эти картинки - это то, что можно взять без проблем, и тут же распарсить как угодно и куда угодно.

    дальше так не получится - в следующих группах характеристик плавающее количество полей, и, кроме того, их положение от страницы к странице не совпадает.

    тем не менее, естественно, эту информацию тоже можно собрать, только не будет работать схема граб->парсинг, придется в середину воткнуть процессинг: граб->процессинг->парсинг

    обработка может быть самой элементарной то есть ручной - для облегчения задачи я сначала выдирал названия полей, а в следующей колонке - соответствующее значение. если кому удобнее, чтобы они все были в одной ячейке, соединить ячейки в экселе - плевое дело.

    дальше в экселе можно отсортировать колонки по возрастанию, а потом те, что сдвинулись влево из-за отстуствия какой-то информации все в одном месте просто подвинуть вправо куда нужно, и уж потом парсить в шоп.

    в общем и целом, без обработки, получился такой вот файл:
    Перейти по ссылке

    небольшое описание в дополнение к тому, что выше, будет такое:

    Расширенная база (представлена неорганизованным xls файлом, в том смысле, что после базовой информации
    характеристики "плавают" и не упорядочены по столбцам) содержит дополнительную информацию по
    - конструктивным особенностям объективов (несколько полей)
    - дополнительную информацию (несколько полей)
    - примеры отзывов на объективы (достоинства, недостатки, комментарии)

    Полный список отзывов в данном случае не собмирался.

    там в конце есть кусочек отзывов. но в целом, отзывы надо грабить в отдельный файл по схеме: в первой колонке название модели, в последущий сами отзывы, по их общему количеству.

    =======

    общий вопрос по всему этому безобразию такой - оно вообще кому-то нужно?
    если нужно, то в каком объеме - базовой информации достаточно, или нужна полная?
    если полная, то должна ли она уже быть пост-обработана и причесана, или "и так сойдет"?
    ну, и, конечно, сколько кто готов отдать за такие базы в расчете на 1 раздел. назовите любую цифру, мне просто интересно.

    ну, и если кто поделится своими траблами по сбору баз для своих магазинов, будет интересно послушать.
     
    Farengeit нравится это.
  2. puika

    puika

    Регистр.:
    25 ноя 2006
    Сообщения:
    262
    Симпатии:
    277
    "использовал web content extractor версии 4.0"
    Поделится можешь,естественно если нулл?
    Отдать могут достаточно нормально,если найдёшь человека,которому эта инфа нужна.
    В любом случае "так сойдет" не нужна,если *будешь продавать,только полная структура.
    Траблов много,зависит от заказчика,как везде хотят максимум ,за минимум...
     
  3. Cimmerian

    Cimmerian Читатель

    Заблокирован
    Регистр.:
    6 ноя 2006
    Сообщения:
    1.624
    Симпатии:
    343
    версия 4.0 - с офсайта, триал. зарегина купленной вскладчину регистрацией для версии 3 - в четверке осталось поле для ввода регистрационной информации, но одновременно в справке говорит, что программа зарегистрирована. ограничений по работе нет, вчера за один сеанс сформировала 31.134 записи с одного сайта, ни разу не затормозила, не ушла в своп, и не обвалилась.

    по поводу приобретенной вскладчину регистрации - в личку.
    народу было мало, я внес половину, так что вопрос еще не закрыт, и к приобретению можно присоединиться за 20wmz
     
  4. CrashX

    CrashX В прошлом XSiteCMS

    Регистр.:
    6 июн 2008
    Сообщения:
    682
    Симпатии:
    112
    создавать базу бесполезно, бозовые товары будут а остальные нет...
    я допустим магазн делаю сотиков, но не обычных, а на андроиде и так же USB гаджеты... так что ...
     
  5. Cimmerian

    Cimmerian Читатель

    Заблокирован
    Регистр.:
    6 ноя 2006
    Сообщения:
    1.624
    Симпатии:
    343
    ну так какая проблема?
    собираем базу сотовых, отбираем из нее андроиды.
    потом собираем базу гаджетов.
    все это совмещаем и распарсиваем.
    в дальнейшем остается обновлять информацию - проходить те же разделы на тех же сайтах, откуда бралась исходная информация, и по айдишникам смотрим, что добавилось. если есть обновления, грабим новые айдишники, и добавляем к базе.

    курс для владельца магазина вполне реальный. ради интереса все это тянуть, конечно же, никто не станет, но сам хозяин магазина вполне способен так сделать.

    мое imho

    кстати, магазин реальный? в смысле реально будешь эти товары продавать? была мысль поднять свой старый сайт, связанный с телефонной тематикой. в свое время он был хорошо посещаем? потом ушел в небытие. если поднимать, то хотелось бы и торговую составляющую к нему прикрутить. если хочешь, можем попробовать обсудить партнерку - тогда в личку.
     
  6. letrletrdina

    letrletrdina Постоялец

    Регистр.:
    25 сен 2008
    Сообщения:
    146
    Симпатии:
    6
    отписал в личку - еще актуально и что в итоге получу - какую версию что работает в ней что не работает - кодировка тоже актуальна.
     
  7. Cimmerian

    Cimmerian Читатель

    Заблокирован
    Регистр.:
    6 ноя 2006
    Сообщения:
    1.624
    Симпатии:
    343
    Ответил в личку. С кодировками все тип-топ.

    Граждане, кому реально нужны такие базы, скажите пожалуйста, какая может быть реальная сумма, которую вы готовы на такую базу потратить.
    Любую сумму назовите, которая для вас комфортна.
    Пытаюсь определиться, делать базу таких баз, или же оно просто нафиг никому не надо, и я зря парюсь.
     
  8. letrletrdina

    letrletrdina Постоялец

    Регистр.:
    25 сен 2008
    Сообщения:
    146
    Симпатии:
    6
    Бабло отправил, отпишись пожалуйста в личку что денежки пришли, скину код протекции, - если код к 4 верси не подойдет - прошу манибек - скачал четверку с оф сайта.Если все будет тип топ отпишу в топике что все поуму и народ к тебе еще обратиться за регой.
     
  9. GolDen777

    GolDen777

    Регистр.:
    8 апр 2010
    Сообщения:
    185
    Симпатии:
    58
    У меня есть необходимость в базе.... но только определенного товара с определенных сайтов (сайтов моих поставщиков)
    Необходимо пока весь ассортимент фототоваров с следующих сайтов:
    Перейти по ссылке
    Перейти по ссылке
    Перейти по ссылке
    По поводу оплаты
    находил в нете стоимость таких услуг в раене 20-30$ за 5000 единиц товара
     
  10. Cimmerian

    Cimmerian Читатель

    Заблокирован
    Регистр.:
    6 ноя 2006
    Сообщения:
    1.624
    Симпатии:
    343
    спасибо! ценна информация.
     
Статус темы:
Закрыта.