[Ищу] Получить полный список урлов с морды

doxx · 9 Июл 2012

Нужен или:
-скрипт..
-или онлайн-сервис.
-или десткопный софт...
Задача:
Есть морда сайта
( главная страница )
Нужно получить список внутренних урлов, которые проставлены только с главной страницы сайта на другие страницы.
Не собирая исходящие внешние ссылки!

Ссылки на внутренние страницы сайта нужны ТОЛЬКО с главной.
( это НЕ список всех страниц сайта!!!! )

Если это сервисы, то нужна пакетная обработка таких морд ( от 1к сайтов ).
Такой сервис мне встречался, но там, увы, можно лишь по 1 сайту получать данное ..
Буду благодарен, кто подскажет в каком направлении копать.

DrakonHaSh · 9 Июл 2012

по моему скрипт такой написать - дело 10 минут (правда не будут учитываться хитрые ссылки через js)

кстати, несколько неоднозначная формулировка условия: "только с главной страницы сайта" - я понимаю как пропарсить только главную страницу, а можно понять и как то, что ссылка должна быть только на главной и не разу на всех остальных страницах сайта.

Firstborn · 9 Июл 2012

Для просмотра ссылки Войди или Зарегистрируйся
в настройках поставь глубину - 0 (или 1, точно не помню)

engescua · 9 Июл 2012

Если посайтово, то есть плагин для Chrome/Firefox - SEOquake. Можно посмотреть сколько, куда и какие ссылки ведут с любой страницы сайта.

doxx · 9 Июл 2012

DrakonHaSh написал(а):
по моему скрипт такой написать - дело 10 минут (правда не будут учитываться хитрые ссылки через js)

кстати, несколько неоднозначная формулировка условия: "только с главной страницы сайта" - я понимаю как пропарсить только главную страницу, а можно понять и как то, что ссылка должна быть только на главной и не разу на всех остальных страницах сайта.

пропарсить только главную страницу.

engescua написал(а):
Если посайтово, то есть плагин для Chrome/Firefox - SEOquake. Можно посмотреть сколько, куда и какие ссылки ведут с любой страницы сайта.

непонятно зачем писать если люди не читают да? вроде по-русски в сабже написано что ПАКЕТНАЯ .
получить список ИС с сайта и в любом сео сервисе можно.

Firstborn написал(а):
Для просмотра ссылки Войди или Зарегистрируйся
в настройках поставь глубину - 0 (или 1, точно не помню)

попробовал - может конечно что-то не понял, т.к. софт на англ. , но это не подходит, она все подряд вытаскивает..
Все линки.
Да - в конечном отчете в свойствах урл можно глянуть и список с главной
но он туды почему-то и линки на js файлы и на картинки тоже заносит
Да и сам отчет не подойдет т.к. проверка , как уже было написано в 1 посте, пакетная от 1 к сайтов..

recasher2k12 · 9 Июл 2012

Открываешь в браузере консоль, набираешь:

Код:

var ahrefs = document.getElementsByTagName('a');
for(var i=0;i<ahrefs.length;i++) console.log(ahrefs[i].href);

Далее в консоли получишь все ссылки, ну и фильтруешь их уже.

Такой же принцип работает и в пакетом режиме. Тут приведен пример без юза jQuery. А вообще, JavaScript + jQuery - самый лучший парсер контента! 2-3 строки кода заменяют унылый разбор шаблона сайта Content Downloader`ом

latteo · 9 Июл 2012

recasher2k12 написал(а):
Такой же принцип работает и в пакетом режиме. Тут приведен пример без юза jQuery. А вообще, JavaScript + jQuery - самый лучший парсер контента! 2-3 строки кода заменяют унылый разбор шаблона сайта Content Downloader`ом

Тогда уж и приведи пример того, как ты пакетно будешь обрабатывать 1000 сайтов на JS и куда будешь писать результат...
JS-парсинг - это очень хорошо для нестандартных сайтов с JS защитой, но во-первых очень долго, во-вторых может занять много оперативки, в-третьих мало специалистов, в-четвёртых не удобно обрабатывать результат, в-пятых ...
Это лишь немногие из тех проблем, с которыми пришлось мне столкнуться...

2 doxx там не особо сложный скрипт на php, если сверхточные результаты не нужны. Поищи по форуму, мне кажется, что-то такое было, если не найдётся - создай темку в разделе php -> Как сделать

recasher2k12 · 9 Июл 2012

latteo написал(а):
Тогда уж и приведи пример того, как ты пакетно будешь обрабатывать 1000 сайтов на JS и куда будешь писать результат...
JS-парсинг - это очень хорошо для нестандартных сайтов с JS защитой, но во-первых очень долго, во-вторых может занять много оперативки, в-третьих мало специалистов, в-четвёртых не удобно обрабатывать результат, в-пятых ...
Это лишь немногие из тех проблем, с которыми пришлось мне столкнуться...

2 doxx там не особо сложный скрипт на php, если сверхточные результаты не нужны. Поищи по форуму, мне кажется, что-то такое было, если не найдётся - создай темку в разделе php -> Как сделать

Я никогда не сталкивался с вышеперечисленными Вами проблемами. С чего это было бы долго? И кто сказал что JS обязательно запускать в браузере? На счет памяти, имхо, с той же задачей php сожрет гораздо больше если использовать curl и regexp. Куда сохранять результаты? 1) можно в консоль (или направить вывод из консоли в файл) 2) можно просто в файл 3) можно в БД как nosql так и в, например, mysql . Вот пример со схожей задачей: Для просмотра ссылки Войди или Зарегистрируйся . Можно парсить в несколько потоков. Можно подключить WebWorker и парсить в несколько процессов. И мне порой все равно сколько бы мой скрипт сожрал памяти, у меня ее 4 гига (хватит хоть на 200 запущенных одновременно таких скриптов), главное чтобы было меньше головняка...

[Ищу] Получить полный список урлов с морды

doxx

|||llll|||||llll|||

DrakonHaSh

Постоялец

Firstborn

Писатель

engescua

Писатель

doxx

|||llll|||||llll|||

recasher2k12

Гуру форума

latteo

Эффективное использование PHP, MySQL

recasher2k12

Гуру форума