Ищу софт/алгоритм для необычного анализа сайта

Тема в разделе "Софт", создана пользователем timsky, 1 апр 2008.

Статус темы:
Закрыта.
  1. timsky

    timsky Читатель

    Заблокирован
    Регистр.:
    2 янв 2007
    Сообщения:
    37
    Симпатии:
    46
    Всем привет :)

    К примеру, есть новостной сайт, чистый хтмл, есть архивы. Новости добавляются туда в виде урлов на разные домены, а описание новости, дата и имя автора даются в анкоре. То есть тупо список урлов столбиком :D
    У одного автора могут быть разные домены.

    Ищу софтину, которая могла бы проанализировать его и дать картину, какой автор, в какие дни публиковался, какие домены засветились, куда линки вели уже со страницы автора.

    Если нет готового решения, то может быть это как-то можно замутить при помощи подручных средств?
    Выкачать сайт не проблема, проблема в том, что новостей тысячи, ручками опухнешь.
     
  2. StDutch

    StDutch

    Регистр.:
    18 дек 2007
    Сообщения:
    337
    Симпатии:
    116
    1. выкачать архивы
    2. пропарсить архивы, получить на выходе массивы ссылок
    3. обработать ссылки, получить список доменов
    4. напарсить whois
    5. проанализировать whois, определить принадлежность доменов
    6. свести данные в общую базу и получить искомые результаты (? -- у меня вопрос -- а для чего это нужно и что это даст?).

    Если задача имеет коммерческий смысл, то можно сделать.
     
  3. timsky

    timsky Читатель

    Заблокирован
    Регистр.:
    2 янв 2007
    Сообщения:
    37
    Симпатии:
    46
    Хуиз не нужен.
    Принадлежность доменов определяется только по имени автора. Здесь специфика такая, т.е. нужно брать опр. кусок в анкоре за имя автора, точно также и дата.

    Смысл в том, чтобы вычислить, что на этом (и подобных) сайте в данный момент популярно, что было популярно, но потеряло актуальность, т.к. подобной инфы в готовом виде не дает никто :( Все нужно ручками высматривать, в файлик писать, а желательно этот процесс автоматизировать. У меня на одном из сайтов сил хватило просмортеть только за последние 2 недели, а там архивов за год уже скопилось.

    Естественно, смысл коммерческий. Думаю, применений этой штуке найдется немало.

    Я примерно представляю себе простеший вариант анализа:
    1) распарсилось оно все.
    2) имеется возможность просмотра инфы по признакам: автор, домен, дата публикации, куда реально ведут линки с учетом редиректов.
    Т.е. древовидная структура: выбираешь сортировку по автору и видишь, когда, с каких доменов публиковался, куда вели линки с его страниц.

    Я уверен, что нечто подобное существует, просто я, возможно, не так понятно объясняю.
     
Статус темы:
Закрыта.