Парсер Datacol

APSALIM · 3 Май 2013

таблетка парсера контента датакол 4

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

датакол объявление 2,0

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

скачать с офф сайта демо и положть таблетки в папку с прогой и их запускать

Скрытое содержимое доступно для зарегистрированных пользователей!

animal_x · 16 Ноя 2018

Вот Вы сами тест посмотрите, собирается 12 урл с вашего примера, а должно 6 Для просмотра ссылки Войди или Зарегистрируйся
Попробуйте использовать этот xpath

Код:

//div[contains(@class, "shop-item")]/a[@class="name"]

ну и для пагинации

Код:

//div[@class='pages']/a

WKTP · 16 Ноя 2018

animal_x написал(а):
Вот Вы сами тест посмотрите, собирается 12 урл с вашего примера, а должно 6 Для просмотра ссылки Войди или Зарегистрируйся
Попробуйте использовать этот xpath

Код:

//div[contains(@class, "shop-item")]/a[@class="name"]

ну и для пагинации

Код:

//div[@class='pages']/a

С вашими xpath:
В этой

Скрытое содержимое доступно для зарегистрированных пользователей!

категории все норм собралось, 6 из 6!
А вот в этой

Скрытое содержимое доступно для зарегистрированных пользователей!

категории, 32 товара, собирает все равно со всех остальных! — Для просмотра ссылки Войди или Зарегистрируйся

Спасибо!

animal_x · 16 Ноя 2018

Не знаю, нужно тестировать проект полностью. Так я не вижу откуда он может брать.
Попробуйте еще ограничить так "shop-item-page" в должны отсутствовать в коде Для просмотра ссылки Войди или Зарегистрируйся

WKTP · 16 Ноя 2018

Тестировал полностью!
Добавил на вкладке "Навигация" - "Сбор ссылок" в "Фильтры ссылок" - "Должно присутствовать" - spalnye-meshki-kovriki
Собирает все что нужно! Как по другому настроить я не знаю!

l0cky · 16 Ноя 2018

mary-n1 написал(а):
Столкнулась с проблемой:
Запрос был прерван: Не удалось создать защищенный канал SSL/TLS.
Что можно сделать?

а переключить на загрузка ==> браузер пробовали?

animal_x · 16 Ноя 2018

l0cky написал(а):
а переключить на загрузка ==> браузер пробовали?

Так там писали за 5й Датакол, там такого нет

l0cky · 17 Ноя 2018

animal_x написал(а):
Так там писали за 5й Датакол, там такого нет

я запускал в 7, парсил, но выглядело это ужасно.
Попробуйте BAS от bablosoft, он бесплатный и точно с этим справится.

WKTP · 23 Ноя 2018

Я снова за помощью, не могу подобрать xpath
Сайт

Скрытое содержимое доступно для зарегистрированных пользователей!

Нужно собрать все, кроме 1, 2 это Главная и Интернет-магазин и последнего элемента название товара
xpath: //div[@id='status']

Скрытое содержимое доступно для зарегистрированных пользователей!

И помогите пожалуйста составить замену в названии, нужно убрать в конце с пробелом (xxxyyyzzz)
xpath: //h1[@id='main-header']

Спасибо!

update
С категориями вроде разобрался, хотя там в некоторых местах придется ручками с csv править...

update2
в notepad++
Найти: (.*?)\(.*?\)\s?(.*?)
Заменить: \1\3

animal_x · 27 Ноя 2018

WKTP написал(а):
Я снова за помощью, не могу подобрать xpath
Сайт
Нужно собрать все, кроме 1, 2 это Главная и Интернет-магазин и последнего элемента название товара
xpath: //div[@id='status']

Если еще актуально по хлебным крошкам.
1. Поле статическое, на вкладке Статические ставите диапазон 2-5
2. xpath //div[@id="status"]/span/a[string-length(@href) > 3]

WKTP · 28 Ноя 2018

animal_x написал(а):
Если еще актуально по хлебным крошкам.
1. Поле статическое, на вкладке Статические ставите диапазон 2-5
2. xpath //div[@id="status"]/span/a[string-length(@href) > 3]

Уже нет, все сделал, но все равно спасибо! На будущее буду знать!

Парсер Datacol

APSALIM

Постоялец

animal_x

Постоялец

WKTP

Постоялец

animal_x

Постоялец

WKTP

Постоялец

l0cky

Гуру форума

animal_x

Постоялец

l0cky

Гуру форума

WKTP

Постоялец

animal_x

Постоялец

WKTP

Постоялец