[Ищу] Получить полный список урлов с морды

Тема в разделе "SEO Скрипты", создана пользователем doxx, 9 июл 2012.

  1. doxx

    doxx |||llll|||||llll|||

    Регистр.:
    18 фев 2009
    Сообщения:
    1.058
    Симпатии:
    212
    Нужен или:
    -скрипт..
    -или онлайн-сервис.
    -или десткопный софт...
    Задача:
    Есть морда сайта
    ( главная страница )
    Нужно получить список внутренних урлов, которые проставлены только с главной страницы сайта на другие страницы.
    Не собирая исходящие внешние ссылки!

    Ссылки на внутренние страницы сайта нужны ТОЛЬКО с главной.
    ( это НЕ список всех страниц сайта!!!! )

    Если это сервисы, то нужна пакетная обработка таких морд ( от 1к сайтов ).
    Такой сервис мне встречался, но там, увы, можно лишь по 1 сайту получать данное ..
    Буду благодарен, кто подскажет в каком направлении копать.
     
  2. DrakonHaSh

    DrakonHaSh

    Регистр.:
    29 июн 2010
    Сообщения:
    358
    Симпатии:
    122
    по моему скрипт такой написать - дело 10 минут (правда не будут учитываться хитрые ссылки через js)

    кстати, несколько неоднозначная формулировка условия: "только с главной страницы сайта" - я понимаю как пропарсить только главную страницу, а можно понять и как то, что ссылка должна быть только на главной и не разу на всех остальных страницах сайта.
     
  3. Firstborn

    Firstborn Писатель

    Заблокирован
    Регистр.:
    22 июл 2009
    Сообщения:
    64
    Симпатии:
    21
    Xenu
    в настройках поставь глубину - 0 (или 1, точно не помню)
     
  4. engescua

    engescua Писатель

    Регистр.:
    14 июл 2009
    Сообщения:
    6
    Симпатии:
    3
    Если посайтово, то есть плагин для Chrome/Firefox - SEOquake. Можно посмотреть сколько, куда и какие ссылки ведут с любой страницы сайта.
     
  5. doxx

    doxx |||llll|||||llll|||

    Регистр.:
    18 фев 2009
    Сообщения:
    1.058
    Симпатии:
    212
    пропарсить только главную страницу.
    непонятно зачем писать если люди не читают да? вроде по-русски в сабже написано что ПАКЕТНАЯ .
    получить список ИС с сайта и в любом сео сервисе можно.
    попробовал - может конечно что-то не понял, т.к. софт на англ. , но это не подходит, она все подряд вытаскивает..
    Все линки.
    Да - в конечном отчете в свойствах урл можно глянуть и список с главной
    но он туды почему-то и линки на js файлы и на картинки тоже заносит
    Да и сам отчет не подойдет т.к. проверка , как уже было написано в 1 посте, пакетная от 1 к сайтов..
     
  6. recasher2k12

    recasher2k12

    Регистр.:
    19 фев 2012
    Сообщения:
    156
    Симпатии:
    79
    Открываешь в браузере консоль, набираешь:
    Код:
    var ahrefs = document.getElementsByTagName('a');
    for(var i=0;i<ahrefs.length;i++) console.log(ahrefs[i].href);
    Далее в консоли получишь все ссылки, ну и фильтруешь их уже.

    Такой же принцип работает и в пакетом режиме. Тут приведен пример без юза jQuery. А вообще, JavaScript + jQuery - самый лучший парсер контента! 2-3 строки кода заменяют унылый разбор шаблона сайта Content Downloader`ом
     
  7. latteo

    latteo Эффективное использование PHP, MySQL

    Moderator
    Регистр.:
    28 фев 2008
    Сообщения:
    1.549
    Симпатии:
    1.431
    Тогда уж и приведи пример того, как ты пакетно будешь обрабатывать 1000 сайтов на JS и куда будешь писать результат...
    JS-парсинг - это очень хорошо для нестандартных сайтов с JS защитой, но во-первых очень долго, во-вторых может занять много оперативки, в-третьих мало специалистов, в-четвёртых не удобно обрабатывать результат, в-пятых ...
    Это лишь немногие из тех проблем, с которыми пришлось мне столкнуться...

    2 doxx там не особо сложный скрипт на php, если сверхточные результаты не нужны. Поищи по форуму, мне кажется, что-то такое было, если не найдётся - создай темку в разделе php -> Как сделать
     
  8. recasher2k12

    recasher2k12

    Регистр.:
    19 фев 2012
    Сообщения:
    156
    Симпатии:
    79
    Я никогда не сталкивался с вышеперечисленными Вами проблемами. С чего это было бы долго? И кто сказал что JS обязательно запускать в браузере? На счет памяти, имхо, с той же задачей php сожрет гораздо больше если использовать curl и regexp. Куда сохранять результаты? 1) можно в консоль (или направить вывод из консоли в файл) 2) можно просто в файл 3) можно в БД как nosql так и в, например, mysql . Вот пример со схожей задачей: http://nodejs.ru/404 . Можно парсить в несколько потоков. Можно подключить WebWorker и парсить в несколько процессов. И мне порой все равно сколько бы мой скрипт сожрал памяти, у меня ее 4 гига (хватит хоть на 200 запущенных одновременно таких скриптов), главное чтобы было меньше головняка...
     
    latteo нравится это.