Ускорение роботы парсера

Вообще не увидел в магазине проблем с парсингом контент даунлодером. Все категории/подкатегории выстроены красивенько, составить список ссылок легко. Товар правда на 1 уровне лежит, но по бредкрамбсам легко выстраивается структура категорий. Очень простой и удобный сайт в парсинге...
:D дада еслиб так и было. Категории и подкатегории возможны только при сборе ссылок от каждой категории с прописью в [PARAM]
Скрытое содержимое доступно для зарегистрированных пользователей!
 
Да, вижу есть проблемы... Я бы после парсинга к себе на сайт добавлял бы с другой структурой каталогов...
Когда я примерно с таким сталкивался, то парсил сначала все категории с названиями товаров, потом парсил сами товары, а потом сливал 2 CSV файла в 1 сравнивая по полю "название товара". На выходе получал 1 файл со всеми категориями и товарами...

Не знаю применимо ли это на этом сайте :)
 
Делал загрузку товаров в престу: самое медленное было - это обработка картинок.
Но вообще около 46 000 позиций загрузились часа за 3-4.
 
а ваши разрабы про многопоточность не слыхали? Постоянно делаю парсеры, иногд приходится на плюсах колбасить. Многопоточность на пхп реализуется несколькими способами. Не считая стандартных решений, я вообще сделал на java помошника, который запускает хоть 1к потоков. Правда если сайт следит за нагрузкой - могут побанить все айпишки, надо прокся будет искать чистые.
 
1) Устаналиваете XDEBUG на сервере
2) Профилируете выполнение цикла
3) Ищите самые долгие тайминги выполнения (самые длительные операции)
4а) Просите конкретной помощи по конкретному вопросу
4б) Находите решение самостоятельно
5) Профилируете работу MySQL сервера (штатных средств мускуля будет достаточно)

Вообще оптимизация и профилирование это целая наука )
 
Взять другой сервер / более мощный интернет / другого разработчика
 
Да, вижу есть проблемы... Я бы после парсинга к себе на сайт добавлял бы с другой структурой каталогов...
Когда я примерно с таким сталкивался, то парсил сначала все категории с названиями товаров, потом парсил сами товары, а потом сливал 2 CSV файла в 1 сравнивая по полю "название товара". На выходе получал 1 файл со всеми категориями и товарами...

Не знаю применимо ли это на этом сайте :)
Подскажите, пожалуйста, как именно вы сравнили по полю "название товара"? Есть похожая задача, не могу найти решение...
 
написан на php, регулярные выражение, парсит товар с sportsdirect.com, какая информация ещё нужна?

Регулярные выражения вообще не быстрая штука в целом.
Делайте без них, если возможно, к примеру с использованием DOMDocument (это может быть чуть быстрее), но возможно к вашей конкретной задаче и не подойдет.
 
Подскажите, пожалуйста, как именно вы сравнили по полю "название товара"? Есть похожая задача, не могу найти решение...
У меня была такая ситуация, когда в каталоге были все названия товаров, а на товарах не было обозначения в какой он категории находится.
Сначала я парсил в цсв файл ссылки на все товары, структуру категорий и название товара.
Во второй файл я парсил все товары с описанием + адрес этой страницы.
Затем встроенным в контентдаунлодер цсв редактором соединял эти 2 файла, поле по которому я их соединял - адрес страницы товара.
На выходе получался 1 файл со всеми товарами, описаниями, и сохраненной структурой каталогов.
 
Затем встроенным в контентдаунлодер цсв редактором соединял эти 2 файла, поле по которому я их соединял - адрес страницы товара.
Огромное спасибо! Не устаю удивляться возможностям Content Downloader'a..) Только что сделал - получилось :)
 
Назад
Сверху