Парсинг ссылок

Jeepers Kreepers · 8 Авг 2012

Нужно собрать ссылки по определённому шаблону. Раньше делал AgressParser'ом, но сейчас не работает почему-то.

К примеру, в коде сайта есть такие URL'ы:

<h2 id="name"><a href="http://www.site.com/">blabla</a></h2>

Нужно вытащить всё, что между <h2 id="name"> и </h2>

R:man · 8 Авг 2012

В Content Downloader можно их спарсить,зделать настройку откуда и до куда парсить ,здесь мануальчик, если что Для просмотра ссылки Войди или Зарегистрируйся

Jeepers Kreepers · 8 Авг 2012

Из бесплатного пока нету ничего подходящего?

R:man · 8 Авг 2012

Кряки есть в паблике, по-моему v.32 .А так же здесь есть 31.14 версия кажется под хайдом,при чем очень неплохо работает, иногда правда вылетает. Еще попробуй teleport (vlx),возможно там тоже можно спарсить то что нужно,уже не помню, он тоже в паблике валяется.

m25 · 8 Авг 2012

Для просмотра ссылки Войди или Зарегистрируйся
года полтора назад это был чуть ли не единственный адекватный фришный парсер

Menro · 8 Авг 2012

Универсальный парсер ZennoPoster.

1. Скачать (есть на форуме в разделе "Программы", я думаю найти проблем не будет"
2. Запускаем ProjectMaker.exe
3. Выбираем вкладку "Запись действий"
4. Вбиваем сайт в адресную строку и жмем Enter
5. Жмем кнопку "Текст страницы"
6. Копируем текст
7. Переходим во вкладку "Конструктор регулярных выражений"
8. Вставляем в левое окно наш текст
9. Дальше в поле "Перед искомым текстом всегда есть" <h2 id="name">
10. В поле "Это идет после искомого текста" </h2>
11. Должна получиться вот такая регулярка: (?<=\<h2 id\=\"name\"\>).*(?=\<\/h2\>) (если вместо name встречается разные слова, например <h2 id="name1"> или <h2 id="name2">, то регулярка будет выглядеть так: (?<=\<h2 id\=\".*\"\>).*(?=\<\/h2\>)
12. Нажимаем "Протестировать регулярное выражение"
13. В правом окошке получаем результат. Теперь нужно избавиться от мусора.
14. Копируем в Notepad++ и нажимаем CTRL+H
15. В поле "Найти" вставляем ----------------------------------- совпадение .* -----------------------------------
16. В поле "Замененить" оставляем пустоту.
17. Ставим галочку "Регулярное выражение" и жмем "Заменить все". Теперь надо убрать пустые строки.
18. Ставим галочку "Расширенный"
19. В поле найти пишем: \n\r
20. В поле "Заменить" пишем: \0 и жмем "заменить все".
21. Все готово.

По началу данный способ может показаться тяжелым, ну на деле и при определенной сноровке - это очень просто и удобно.
Теперь вы умеете делать свой парсер! Если хотите запускать его автоматически, то можете поковырять "Редактор проектов"

Удачи!

CAPAXA · 8 Авг 2012

Если не принципиально на чем, то на php есть библиотека
PHP Simple HTML DOM Parser Для просмотра ссылки Войди или Зарегистрируйся

imchotep · 8 Авг 2012

Content Downloader прекрасно справится с задачей. Там как раз задаешь границы между конкретными тегами.
Есть версия 2010 года 11.39

Парсинг ссылок

Jeepers Kreepers

Участник

R:man

Постоялец

Jeepers Kreepers

Участник

R:man

Постоялец

m25

Гуру форума

Menro

web, seo, email, hack

CAPAXA

Хранитель порядка

imchotep

Создатель