Примеры настройки html-граббинга в NewsGrabberJC Pro

Тема в разделе "NewsGrabberJC", создана пользователем Phoenix168, 20 июн 2008.

Статус темы:
Закрыта.
  1. Phoenix168

    Phoenix168

    Регистр.:
    15 ноя 2007
    Сообщения:
    182
    Симпатии:
    44
    Приведу свой пример:

    1. На вкладке обработчик переключиться в режим html.
    2. Поля режима одиночной страницы пропускаем.
    3. Начальная и конечная точки контейнера - по аналогии с rss-граббингом - начальная и конечная точки контейнера ссылок на полные тексты новостей. Должны быть уникальны.
    4. Маска href якоря. В случае контейнера ссылок содержащего линки типа http://www.site.ru/news1.html…www.site.ru/news99.html маска будет выглядеть следующим образом - news\d+?\.html. Подробнее инфу о синтаксисе регулярных выражений можно посмотреть например здесь.
    5. Префикс якоря в этом случае будет таким - http://www.site.ru/
    6. Заголовок новости есть смысл взять из якоря ссылки на полный текст новости.
    7. Шаблоны начальной и конечной точки текста новости настраиваются аналогично настройке начальной и конечной точек при rss-граббинге.

    Принимаю предложения и замечания по уточнению.
     
  2. kefir

    kefir Постоялец

    Регистр.:
    30 май 2008
    Сообщения:
    102
    Симпатии:
    9
    кто нибудь подскажите как сграбить html страницу http://www.rubin-kazan.ru/command_news/
    никак не получается

    мои настройки:

    Адрес ленты - _http://rubin-kazan.ru/
    Режим одиночной страницы - нет
    Перезаписать старое - Нет
    Заголовок из якоря - Нет
    Маска href якоря - /.news.+?/
    Префикс якоря - http://www.rubin-kazan.ru/allnews
    Шаблон заголовка - <a[^>]*>.+?<\/a>
    Начальная точка -
    Конечная точка -
    URL картинок -_http://rubin-kazan.ru
     
  3. kifitim

    kifitim Создатель

    Заблокирован
    Регистр.:
    14 ноя 2008
    Сообщения:
    14
    Симпатии:
    0
    на этом сайте пытался сграбить, не получается ни в какую. Даже с отцом невсграббера не получилось. Грабит одну только статью, другие не хочет. Мож там какая защита стоит
     
  4. extrimportal

    extrimportal

    Регистр.:
    28 ноя 2008
    Сообщения:
    540
    Симпатии:
    70
    Нет там защиты просто Вы по ходу дела маску плохо проставили.
     
  5. vomr

    vomr Писатель

    Регистр.:
    7 дек 2008
    Сообщения:
    0
    Симпатии:
    0
    У кого-нибудь вообще получилось настроить html граббинг? У меня RSS настраивать более менее получается, а вот с HTML ничего не выходит...:nezn:
     
  6. Phoenix168

    Phoenix168

    Регистр.:
    15 ноя 2007
    Сообщения:
    182
    Симпатии:
    44
    Здесь два рабочих примера описали. Один с донором. Повторите действия и проверьте сами - работает или нет.
    Конкретно заданный вопрос - половина ответа.
     
Статус темы:
Закрыта.