Лиса и виноград, или сбор товарных баз для Интернет-магазина

Статус
В этой теме нельзя размещать новые ответы.

Cimmerian

Читатель
Заблокирован
Регистрация
6 Ноя 2006
Сообщения
1.624
Реакции
343
  • Автор темы
  • Заблокирован
  • #1
здравствуйте, уважаемые форумчане.
хочу обсудить вопрос сбора баз данных для интернет-магазинов.
во-первых, для чего людям нужны такие базы?
понятно, что от поставщиков обычно фиг допросишься вменяемых описаний.
но вот народ спрашивает, нет ли той или иной базы - это именно для этого, или есть какое-то другое использование?

далее, часто жалуются на то, что не получается сграбить базы маркета (отсюда и басня в заголовке) - товар, вроде, вот он, а как его перезалить в свою базу - не понятно.

очевидно, что базы маркета - первое, что приходит на ум. наверное, это не смое лучшее, что может быть, и не самое полное. но оно есть, и начинать, наверное, целессобразно именно с него. Или нет?

В общем, я для пробы взял один из разделов маркета, а именно тот, что лежал поближе. то есть попросту раздел фотообъективов.

использовал web content extractor версии 4.0, и вот что получилось.



это базовая информация. та, что на маркете идет с жестко зафиксированным количеством полей.

описание к ней такое:

Товарная база данных по фотообъективов Market.Yandex.ru по состоянию на 6 сентября 2010 года.

База содержит описания и изображения по 566 моделям фотообъективов.

Базовое описание включает:
- Название
- Изображение (в xls файле - название файла изображения)
- Средняя цена
- Минимальная цена
- Максимальная цена
- Тип объектива
- Фокусное расстояние
- Диафрагма
- Минимальная диафрагма
- Тип крепления объектива
- Автофокус (есть/нет)
- Макрорежим (есть/нет)




это все картинки ко всем моделям.

то есть этот экселевский файл и эти картинки - это то, что можно взять без проблем, и тут же распарсить как угодно и куда угодно.

дальше так не получится - в следующих группах характеристик плавающее количество полей, и, кроме того, их положение от страницы к странице не совпадает.

тем не менее, естественно, эту информацию тоже можно собрать, только не будет работать схема граб->парсинг, придется в середину воткнуть процессинг: граб->процессинг->парсинг

обработка может быть самой элементарной то есть ручной - для облегчения задачи я сначала выдирал названия полей, а в следующей колонке - соответствующее значение. если кому удобнее, чтобы они все были в одной ячейке, соединить ячейки в экселе - плевое дело.

дальше в экселе можно отсортировать колонки по возрастанию, а потом те, что сдвинулись влево из-за отстуствия какой-то информации все в одном месте просто подвинуть вправо куда нужно, и уж потом парсить в шоп.

в общем и целом, без обработки, получился такой вот файл:


небольшое описание в дополнение к тому, что выше, будет такое:

Расширенная база (представлена неорганизованным xls файлом, в том смысле, что после базовой информации
характеристики "плавают" и не упорядочены по столбцам) содержит дополнительную информацию по
- конструктивным особенностям объективов (несколько полей)
- дополнительную информацию (несколько полей)
- примеры отзывов на объективы (достоинства, недостатки, комментарии)

Полный список отзывов в данном случае не собмирался.

там в конце есть кусочек отзывов. но в целом, отзывы надо грабить в отдельный файл по схеме: в первой колонке название модели, в последущий сами отзывы, по их общему количеству.

=======

общий вопрос по всему этому безобразию такой - оно вообще кому-то нужно?
если нужно, то в каком объеме - базовой информации достаточно, или нужна полная?
если полная, то должна ли она уже быть пост-обработана и причесана, или "и так сойдет"?
ну, и, конечно, сколько кто готов отдать за такие базы в расчете на 1 раздел. назовите любую цифру, мне просто интересно.

ну, и если кто поделится своими траблами по сбору баз для своих магазинов, будет интересно послушать.
 
  • Автор темы
  • Заблокирован
  • #3
*** скрытое содержание ***

версия 4.0 - с офсайта, триал. зарегина купленной вскладчину регистрацией для версии 3 - в четверке осталось поле для ввода регистрационной информации, но одновременно в справке говорит, что программа зарегистрирована. ограничений по работе нет, вчера за один сеанс сформировала 31.134 записи с одного сайта, ни разу не затормозила, не ушла в своп, и не обвалилась.
 
создавать базу бесполезно, бозовые товары будут а остальные нет...
я допустим магазн делаю сотиков, но не обычных, а на андроиде и так же USB гаджеты... так что ...
 
  • Автор темы
  • Заблокирован
  • #5
создавать базу бесполезно, бозовые товары будут а остальные нет...
я допустим магазн делаю сотиков, но не обычных, а на андроиде и так же USB гаджеты... так что ...

ну так какая проблема?
собираем базу сотовых, отбираем из нее андроиды.
потом собираем базу гаджетов.
все это совмещаем и распарсиваем.
в дальнейшем остается обновлять информацию - проходить те же разделы на тех же сайтах, откуда бралась исходная информация, и по айдишникам смотрим, что добавилось. если есть обновления, грабим новые айдишники, и добавляем к базе.

курс для владельца магазина вполне реальный. ради интереса все это тянуть, конечно же, никто не станет, но сам хозяин магазина вполне способен так сделать.

мое imho

кстати, магазин реальный? в смысле реально будешь эти товары продавать? была мысль поднять свой старый сайт, связанный с телефонной тематикой. в свое время он был хорошо посещаем? потом ушел в небытие. если поднимать, то хотелось бы и торговую составляющую к нему прикрутить. если хочешь, можем попробовать обсудить партнерку - тогда в личку.
 
версия 4.0 - с офсайта, триал. зарегина купленной вскладчину регистрацией для версии 3 - в четверке осталось поле для ввода регистрационной информации, но одновременно в справке говорит, что программа зарегистрирована. ограничений по работе нет, вчера за один сеанс сформировала 31.134 записи с одного сайта, ни разу не затормозила, не ушла в своп, и не обвалилась.
*** скрытое содержание ***
отписал в личку - еще актуально и что в итоге получу - какую версию что работает в ней что не работает - кодировка тоже актуальна.
 
  • Автор темы
  • Заблокирован
  • #7
letrletrdina; написал(а):
отписал в личку - еще актуально и что в итоге получу - какую версию что работает в ней что не работает - кодировка тоже актуальна.

Ответил в личку. С кодировками все тип-топ.

Граждане, кому реально нужны такие базы, скажите пожалуйста, какая может быть реальная сумма, которую вы готовы на такую базу потратить.
Любую сумму назовите, которая для вас комфортна.
Пытаюсь определиться, делать базу таких баз, или же оно просто нафиг никому не надо, и я зря парюсь.
 
Ответил в личку. С кодировками все тип-топ.
Граждане, кому реально нужны такие базы, скажите пожалуйста, какая может быть реальная сумма, которую вы готовы на такую базу потратить.
Любую сумму назовите, которая для вас комфортна.
Пытаюсь определиться, делать базу таких баз, или же оно просто нафиг никому не надо, и я зря парюсь.
 
Граждане, кому реально нужны такие базы, скажите пожалуйста, какая может быть реальная сумма, которую вы готовы на такую базу потратить.
Любую сумму назовите, которая для вас комфортна.
У меня есть необходимость в базе.... но только определенного товара с определенных сайтов (сайтов моих поставщиков)

По поводу оплаты
 
  • Автор темы
  • Заблокирован
  • #10
У меня есть необходимость в базе.... но только определенного товара с определенных сайтов (сайтов моих поставщиков)
*** скрытое содержание ***
По поводу оплаты
*** скрытое содержание ***

спасибо! ценна информация.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху