[Ищу] Получить полный список урлов с морды

doxx

|||llll|||||llll|||
Регистрация
18 Фев 2009
Сообщения
1.055
Реакции
212
Нужен или:
-скрипт..
-или онлайн-сервис.
-или десткопный софт...
Задача:
Есть морда сайта
( главная страница )
Нужно получить список внутренних урлов, которые проставлены только с главной страницы сайта на другие страницы.
Не собирая исходящие внешние ссылки!

Ссылки на внутренние страницы сайта нужны ТОЛЬКО с главной.
( это НЕ список всех страниц сайта!!!! )

Если это сервисы, то нужна пакетная обработка таких морд ( от 1к сайтов ).
Такой сервис мне встречался, но там, увы, можно лишь по 1 сайту получать данное ..
Буду благодарен, кто подскажет в каком направлении копать.
 
по моему скрипт такой написать - дело 10 минут (правда не будут учитываться хитрые ссылки через js)

кстати, несколько неоднозначная формулировка условия: "только с главной страницы сайта" - я понимаю как пропарсить только главную страницу, а можно понять и как то, что ссылка должна быть только на главной и не разу на всех остальных страницах сайта.
 
  • Заблокирован
  • #3
Если посайтово, то есть плагин для Chrome/Firefox - SEOquake. Можно посмотреть сколько, куда и какие ссылки ведут с любой страницы сайта.
 
по моему скрипт такой написать - дело 10 минут (правда не будут учитываться хитрые ссылки через js)

кстати, несколько неоднозначная формулировка условия: "только с главной страницы сайта" - я понимаю как пропарсить только главную страницу, а можно понять и как то, что ссылка должна быть только на главной и не разу на всех остальных страницах сайта.
пропарсить только главную страницу.
Если посайтово, то есть плагин для Chrome/Firefox - SEOquake. Можно посмотреть сколько, куда и какие ссылки ведут с любой страницы сайта.
непонятно зачем писать если люди не читают да? вроде по-русски в сабже написано что ПАКЕТНАЯ .
получить список ИС с сайта и в любом сео сервисе можно.
Для просмотра ссылки Войди или Зарегистрируйся
в настройках поставь глубину - 0 (или 1, точно не помню)
попробовал - может конечно что-то не понял, т.к. софт на англ. , но это не подходит, она все подряд вытаскивает..
Все линки.
Да - в конечном отчете в свойствах урл можно глянуть и список с главной
но он туды почему-то и линки на js файлы и на картинки тоже заносит
Да и сам отчет не подойдет т.к. проверка , как уже было написано в 1 посте, пакетная от 1 к сайтов..
 
Открываешь в браузере консоль, набираешь:
Код:
var ahrefs = document.getElementsByTagName('a');
for(var i=0;i<ahrefs.length;i++) console.log(ahrefs[i].href);
Далее в консоли получишь все ссылки, ну и фильтруешь их уже.

Такой же принцип работает и в пакетом режиме. Тут приведен пример без юза jQuery. А вообще, JavaScript + jQuery - самый лучший парсер контента! 2-3 строки кода заменяют унылый разбор шаблона сайта Content Downloader`ом
 
Такой же принцип работает и в пакетом режиме. Тут приведен пример без юза jQuery. А вообще, JavaScript + jQuery - самый лучший парсер контента! 2-3 строки кода заменяют унылый разбор шаблона сайта Content Downloader`ом

Тогда уж и приведи пример того, как ты пакетно будешь обрабатывать 1000 сайтов на JS и куда будешь писать результат...
JS-парсинг - это очень хорошо для нестандартных сайтов с JS защитой, но во-первых очень долго, во-вторых может занять много оперативки, в-третьих мало специалистов, в-четвёртых не удобно обрабатывать результат, в-пятых ...
Это лишь немногие из тех проблем, с которыми пришлось мне столкнуться...

2 doxx там не особо сложный скрипт на php, если сверхточные результаты не нужны. Поищи по форуму, мне кажется, что-то такое было, если не найдётся - создай темку в разделе php -> Как сделать
 
Тогда уж и приведи пример того, как ты пакетно будешь обрабатывать 1000 сайтов на JS и куда будешь писать результат...
JS-парсинг - это очень хорошо для нестандартных сайтов с JS защитой, но во-первых очень долго, во-вторых может занять много оперативки, в-третьих мало специалистов, в-четвёртых не удобно обрабатывать результат, в-пятых ...
Это лишь немногие из тех проблем, с которыми пришлось мне столкнуться...

2 doxx там не особо сложный скрипт на php, если сверхточные результаты не нужны. Поищи по форуму, мне кажется, что-то такое было, если не найдётся - создай темку в разделе php -> Как сделать
Я никогда не сталкивался с вышеперечисленными Вами проблемами. С чего это было бы долго? И кто сказал что JS обязательно запускать в браузере? На счет памяти, имхо, с той же задачей php сожрет гораздо больше если использовать curl и regexp. Куда сохранять результаты? 1) можно в консоль (или направить вывод из консоли в файл) 2) можно просто в файл 3) можно в БД как nosql так и в, например, mysql . Вот пример со схожей задачей: Для просмотра ссылки Войди или Зарегистрируйся . Можно парсить в несколько потоков. Можно подключить WebWorker и парсить в несколько процессов. И мне порой все равно сколько бы мой скрипт сожрал памяти, у меня ее 4 гига (хватит хоть на 200 запущенных одновременно таких скриптов), главное чтобы было меньше головняка...
 
Назад
Сверху