Халявный парсер яндекс-каталога

Тема в разделе "Open Source", создана пользователем devaka, 14 ноя 2008.

Статус темы:
Закрыта.
Модераторы: Amazko, Aste
  1. devaka

    devaka Писатель

    Регистр.:
    10 июн 2008
    Сообщения:
    9
    Симпатии:
    1
    Имеется фришный парсер ЯК, если кому нада, ссылка ниже. В парсере есть возможность поставить задержку между запросами к каталогу, задать определенную категорию и скачать результат в виде .txt файла.

    Источник: http://devaka.ru/articles/yaca-parser
     
    rkinfo нравится это.
  2. Mons

    Mons

    Регистр.:
    2 апр 2006
    Сообщения:
    1.590
    Симпатии:
    920
    Если такое дело, тогда уж так:

    YacaParser.zip [11.39KB]
    http://devaka.ru/files/YacaParser.zip


    А под парсинг блогов к примеру сможешь переписать ??
     
    Mikk_ и Collapse666 нравится это.
  3. Shotlandec

    Shotlandec

    Регистр.:
    17 сен 2007
    Сообщения:
    728
    Симпатии:
    162
    перед тем как попробовать, подскажите есть ли там возможность поиска по урлу? то есть такой запрос как у гуугли "inurl:"?
     
  4. Trepepe

    Trepepe Создатель

    Регистр.:
    17 фев 2007
    Сообщения:
    20
    Симпатии:
    8
    Способов несколько, но все слегка кривые:

    1. Оператор url="" позволяет найти любые подстроки URL с начала адреса документа.
    Плюсы: ищет любую подстроку, можно использовать wildcard.
    Минусы: ищет только с начала URL.

    2. Оператор domain="" позволяет найти все документы, в названии доменов которых между точками есть запрашиваемые подстроки (раньше его было видно в переколдовке поиска по сайту; теперь — только в хелпе).
    Плюсы: ищет подстроки, можно использовать wildcard; ищет с любом куске имени (под)домена.
    Минусы: ищет только с начала (под)доменных имен, не «ест» точку.
    Замечательно то, что несколько имен можно сочетать и указывать их точный порядок.
    Есть еще прекрасный мета-домен root, каковой всегда занимает последнюю «позицию» в доменном имени. Впрочем, нормальное доменное имя root не запрещено.

    3. Операторы host="" и rhost="" работают аналогично URL, но ограничиваются доменным именем. Оператор rhost еще и переставляет порядок следования имен (под)доменов, что очень удобно, например, для поиска по фрихостам.
    Плюсы: ищут подстроки, можно использовать wildcard; можно менять порядок доменных имен.
    Минусы: ищет только с начала/конца домена.
     
  5. sazuke

    sazuke Постоялец

    Регистр.:
    3 фев 2008
    Сообщения:
    54
    Симпатии:
    7
    Я скачал, установил на денвер. Вроде запускает индексный файл, ввожу категорию... Пауза.. В той же страницы предлагает сохранить текстовый файл с результатами. В текстовом файле та же страница, только в строчке URL та чать, что мне нужно было отпарсить.
     
  6. sazuke

    sazuke Постоялец

    Регистр.:
    3 фев 2008
    Сообщения:
    54
    Симпатии:
    7
    Кстати, хочу добавить...

    Данный скрипт по сути не дает нужного результата, так как он парсит PDA версию Яндекс каталога.

    Зайдя в него можно увидеть, насколько отстала PDA версия от нормальной — там только малая часть инфы и даже структура нарушена(. Так что это тухлый номер. :confused:
     
Статус темы:
Закрыта.