Парсинг ссылок

Тема в разделе "Тех. вопросы", создана пользователем Jeepers Kreepers, 8 авг 2012.

  1. Jeepers Kreepers

    Jeepers Kreepers

    Регистр.:
    31 янв 2008
    Сообщения:
    217
    Симпатии:
    6
    Нужно собрать ссылки по определённому шаблону. Раньше делал AgressParser'ом, но сейчас не работает почему-то.

    К примеру, в коде сайта есть такие URL'ы:

    <h2 id="name"><a href="http://www.site.com/">blabla</a></h2>

    Нужно вытащить всё, что между <h2 id="name"> и </h2>
     
  2. R:man

    R:man Постоялец

    Регистр.:
    26 фев 2012
    Сообщения:
    136
    Симпатии:
    95
    В Content Downloader можно их спарсить,зделать настройку откуда и до куда парсить ,здесь мануальчик, если что http://sbfactory.ru
     
    Jeepers Kreepers нравится это.
  3. Jeepers Kreepers

    Jeepers Kreepers

    Регистр.:
    31 янв 2008
    Сообщения:
    217
    Симпатии:
    6
    Из бесплатного пока нету ничего подходящего?
     
  4. R:man

    R:man Постоялец

    Регистр.:
    26 фев 2012
    Сообщения:
    136
    Симпатии:
    95
    Кряки есть в паблике, по-моему v.32 .А так же здесь есть 31.14 версия кажется под хайдом,при чем очень неплохо работает, иногда правда вылетает. Еще попробуй teleport (vlx),возможно там тоже можно спарсить то что нужно,уже не помню, он тоже в паблике валяется.
     
  5. m25

    m25 Постоялец

    Регистр.:
    30 ноя 2009
    Сообщения:
    135
    Симпатии:
    40
    Jeepers Kreepers нравится это.
  6. Menro

    Menro web, seo, email, hack

    Регистр.:
    27 янв 2008
    Сообщения:
    599
    Симпатии:
    112
    Универсальный парсер ZennoPoster.

    1. Скачать (есть на форуме в разделе "Программы", я думаю найти проблем не будет"
    2. Запускаем ProjectMaker.exe
    3. Выбираем вкладку "Запись действий"
    4. Вбиваем сайт в адресную строку и жмем Enter
    5. Жмем кнопку "Текст страницы"
    6. Копируем текст
    7. Переходим во вкладку "Конструктор регулярных выражений"
    8. Вставляем в левое окно наш текст
    9. Дальше в поле "Перед искомым текстом всегда есть" <h2 id="name">
    10. В поле "Это идет после искомого текста" </h2>
    11. Должна получиться вот такая регулярка: (?<=\<h2 id\=\"name\"\>).*(?=\<\/h2\>) (если вместо name встречается разные слова, например <h2 id="name1"> или <h2 id="name2">, то регулярка будет выглядеть так: (?<=\<h2 id\=\".*\"\>).*(?=\<\/h2\>)
    12. Нажимаем "Протестировать регулярное выражение"
    13. В правом окошке получаем результат. Теперь нужно избавиться от мусора.
    14. Копируем в Notepad++ и нажимаем CTRL+H
    15. В поле "Найти" вставляем ----------------------------------- совпадение .* -----------------------------------
    16. В поле "Замененить" оставляем пустоту.
    17. Ставим галочку "Регулярное выражение" и жмем "Заменить все". Теперь надо убрать пустые строки.
    18. Ставим галочку "Расширенный"
    19. В поле найти пишем: \n\r
    20. В поле "Заменить" пишем: \0 и жмем "заменить все".
    21. Все готово.

    По началу данный способ может показаться тяжелым, ну на деле и при определенной сноровке - это очень просто и удобно.
    Теперь вы умеете делать свой парсер! Если хотите запускать его автоматически, то можете поковырять "Редактор проектов" :) Удачи!
     
    Alex_1099660 и Jeepers Kreepers нравится это.
  7. CAPAXA

    CAPAXA

    Регистр.:
    7 июн 2007
    Сообщения:
    896
    Симпатии:
    535
    Jeepers Kreepers нравится это.
  8. imchotep

    imchotep Создатель

    Регистр.:
    9 май 2012
    Сообщения:
    19
    Симпатии:
    5
    Content Downloader прекрасно справится с задачей. Там как раз задаешь границы между конкретными тегами.
    Есть версия 2010 года 11.39
     
    Jeepers Kreepers нравится это.