Есть ли способ прочекать базу на дубликаты (специфично)!

Тема в разделе "Вопросы новичков", создана пользователем Yus, 1 авг 2008.

Статус темы:
Закрыта.
  1. Yus

    Yus

    Регистр.:
    12 янв 2008
    Сообщения:
    255
    Симпатии:
    71
    Коллеги, возникла нестандартная проблема.
    Нужно не просто удалить дубликаты (их я уже удалил).

    Есть база 100к урлов. Она состоит из страниц сайтов. Страниц с одинаковым доменом второго уровня по 50-100.

    Суть такая, нужно отсеить самые худые страницы и оставить базу на 3-5к. Требования: чтоб с каждого домена второго уровня бралась страница с самым большим PR + страницы, pr которых выше 2 включительно.

    То есть, если базу чекать просто на дублирования доменов второго уровня, то получается всего 1,5к сайтов. Но когда чекаешь обычным чекером в agress parser то он берет первую попавшуюся страницу с домена, а не самую пиаристую, а все остальные отсеиваются. А хотелось бы, чтобы было скаждого сайта по самой сильной странице + все не ниже 2.

    Кто-нибудь сталкивался с этим? Спасайте!
     
  2. morfeus

    morfeus Постоялец

    Регистр.:
    25 авг 2007
    Сообщения:
    102
    Симпатии:
    11
    а олсабом нельзя воспользоваться для этого разьве?
     
  3. swed

    swed

    Moderator
    Регистр.:
    17 апр 2008
    Сообщения:
    509
    Симпатии:
    494
    чекнуть все страницы на ПР и в таблице отсечь все, что ниже двух??
     
  4. Yus

    Yus

    Регистр.:
    12 янв 2008
    Сообщения:
    255
    Симпатии:
    71
    Так дело как раз в том, что некоторые сайты могут вообще не содержать страниц с pr2. А нужно, чтобы было в базе на выходе по самой сильно странице с КАЖДОГО сайта + все пиаристые выше 2.
     
  5. Wint-b

    Wint-b Создатель

    Регистр.:
    30 июл 2008
    Сообщения:
    25
    Симпатии:
    8
    Разбей базу на меньше 2 и от 2 выше. Обе прогони на дубли. Объедини и снова прогони на дубли.
     
  6. Yus

    Yus

    Регистр.:
    12 янв 2008
    Сообщения:
    255
    Симпатии:
    71
    При этой схеме всеже не все домены будут задействованы!
     
  7. duremar

    duremar Писатель

    Регистр.:
    24 июл 2008
    Сообщения:
    9
    Симпатии:
    1
    А разве для этого дела не подойдет хрумер+хрефер?
     
  8. alex-bot

    alex-bot Nulled-Man

    Регистр.:
    4 май 2007
    Сообщения:
    498
    Симпатии:
    144
    Так чтобы на выходе была страница с каждого сайта, ее сперва нужно добавить в базу? Или я чего то не понимаю?
    Делай алсабом сперва чекай всю базу на ПР например от 1PR, переносишь это в новую базу, можно разбить и по ПР потом базу с каждым ПР1 ПР2 ПР3 ПР4.... чекаешь на дубли доменов и вот уникальная база, разве не так?
     
Статус темы:
Закрыта.