[Ищу] Ищу скрипт/паук для парсинга страниц сайта

Тема в разделе "SEO Скрипты", создана пользователем seoadr, 29 ноя 2007.

Статус темы:
Закрыта.
  1. seoadr

    seoadr Постоялец

    Регистр.:
    22 апр 2007
    Сообщения:
    128
    Симпатии:
    19
    собственно в идеале так:
    ввожу домен
    _http://www.domain.com/
    а на выходе файлик с урлами страниц нужного сайта.

    короче чтоб он пробегал по всем ВНУТРЕННИМ ссылкам на странице сайта
    и на выходе база с урлами этого сайта.
     
  2. OporaD

    OporaD Прохожие

    Нужен именно скрипт? или подойдет десктопное приложение?
    В принципе можно реализовать что-то похожее на TeleportPro...
     
  3. censored!

    censored!

    Регистр.:
    3 авг 2007
    Сообщения:
    293
    Симпатии:
    106
  4. seoadr

    seoadr Постоялец

    Регистр.:
    22 апр 2007
    Сообщения:
    128
    Симпатии:
    19
    да нужен именно скрипт, т.к. грабить намереваюсь сайты по 100.000 пагов примерно

    Добавлено через 6 минут
    этот скрипт просто грабит линки со страници, а это может стандартный firefox в "информацие о странице".

    нужно чтобы он дальше пошел....
    по всем ссылкам.
    потом все внутренние добавлял бы в файлик.
    дальше шел бы по ним.....
    и т.д.
    естественно что бы 1 страницу 2 раза не просматривал.
    на выходе получаю все урлы сайта.

    пример:
    на подобе работает робот sape.ru когда сайт добавляешь.
     
  5. provodnik

    provodnik Создатель

    Регистр.:
    6 окт 2006
    Сообщения:
    47
    Симпатии:
    9
    Ничего путного я вам предложить не могу, но мой долг Вам намекнуть об огромных ресурсных затратах, которые должны присутствовать у Вашего сервера для этих маневров.

    Офф_топик: Я когда спарсил порядка 10 сайтов (тестировал на локальном сервере) на глубину в 4 шага от главной страницы, из которых 4 сайта были большие порталы с форумами, то у меня контента получилось ~250Мб. Это учитывая, что происходила вырезка рекламы, тэгов, коротких слов... А машина тормозила - ужас как...
    В общем в свое время хотел сделать мини_яндекс для сайтов своего района. Что бы по крону их переиндексировал, осуществлял поиск по своей набранной БД.
    В общем я отказался от столь безумной идеи...
     
  6. StDutch

    StDutch

    Регистр.:
    18 дек 2007
    Сообщения:
    337
    Симпатии:
    116
    wget тебе поможет. :)
     
  7. Qyura

    Qyura Создатель

    Регистр.:
    9 окт 2007
    Сообщения:
    16
    Симпатии:
    0
    да затраты точно не маленькие будут
     
  8. provodnik

    provodnik Создатель

    Регистр.:
    6 окт 2006
    Сообщения:
    47
    Симпатии:
    9
    А вообще, вообще, если умеете парсить гуглю, то вот мой совет:
    Забейте с поисковую строку запрос вида: site:требуемый_сайт.com.

    И наш гугля отдаст на растерзнание все линки, которые есть у него в БД, собственно именно, о чем Вы просили в первом посте...
     
  9. Internet_Contraband

    Internet_Contraband

    Регистр.:
    19 окт 2007
    Сообщения:
    230
    Симпатии:
    58
  10. Yuryus

    Yuryus

    Регистр.:
    3 апр 2007
    Сообщения:
    383
    Симпатии:
    145
    Онлайн сервисы. Возможно подойдут. Не уверен, что смогут поднять такой объем ссылок, все же попробуй.

    http://tools.webmasters.sk/sitemap-creator.php

    http://www.sitemapspal.com/
     
Статус темы:
Закрыта.