Как отсортироват базу?

Тема в разделе "Вопросы новичков", создана пользователем Vales, 14 мар 2008.

Статус темы:
Закрыта.
  1. Vales

    Vales Создатель

    Регистр.:
    5 фев 2008
    Сообщения:
    14
    Симпатии:
    0
    Ребята! Такой вопрос. Напарсил тут я базу небольшую(форумы,гесты) всего около 100К. А нельзя ли каким - либо образом, (и чем) отобрать с этой базы скажем только АМЕРИКАНСКИЕ форумы. Интересуют только они.
     
  2. likeu

    likeu Писатель

    Регистр.:
    4 янв 2008
    Сообщения:
    8
    Симпатии:
    2
    Берешь и составляешь список признаков русских форумов: регистрация, вход и тд.. или наоборот американских signup, login..
    Дальше пишишь скрипт который получит страницу каждого форума и найдет вхождения признаков.. Так бы я сделал :)
     
  3. likeu

    likeu Писатель

    Регистр.:
    4 янв 2008
    Сообщения:
    8
    Симпатии:
    2
    Во! Нашел скрипт, когда-то для кого-то писал.. Вот тз на него, думаю должен тебе подойти:
    Значит есть файл с урлами сайтов (размеры могут быть большые пару Мбайт ) скрипт должен качать каждую станицу в многопоточном режиме (количество потоков задается в интерф. в виде числа) и если размер страницы <= заданого (задаем в интерфейсе в окошке единица КБ) то єтот урл записываем в другой тхт файл. Для экономии трафика желательно закачивать если обем страницы не более заданого + N кБ это нужно для того чтобы не качать страницы по 500кб если нужны страницы не более 20 кБ. В интерф. нужен индикатор работы (% выполнения), который можно будет посмотреть зайдя на соответсв. урл., кнопка старт, стоп, сохранение результатов каждые например 10 минут. Нужна возможность поиска текста в тех страницах которые закачиваются (в интерф. строка ввода предложения) и галочка искать/не искать, полное/частичное вхождение фразы, а так же сохр. результатов поиска в отдельный файл.
     

    Вложения:

  4. noobie

    noobie Постоялец

    Регистр.:
    4 мар 2008
    Сообщения:
    103
    Симпатии:
    13
    уже собранную базу можно сортировать только по тексту. т.е. сразу определится с тем какие признаки для тебя есть укзание что этот форум АМЕРИКАНСКИЙ.
    максимум думаю что можно это отсеять все с неанглийским текстом и с неанглийскими региональными доменами. хотя на com или net может быть как американский форум так и любой другой.

    может есть какойто софт который прочекает базу на whois (хотя и этот признак есть всего лиш признак физического местоположения хоста на котором висит форум).

    Добавлено через 7 минут
    а каким образом этот скрипт помжет ему? я так понял скрипт загружает страницы по ссылкам из файла. он скачает 100к страниц. допустим чемто отфильтрует по какомуто признаку. а как он результат обратно в базу ссылок соберет то?

    Добавлено через 9 минут
    незнаю может оффтоп. но ИМХО фильтровать нужно на этапе парсинга составляя соответствующие запросы.
     
    Krokodile нравится это.
  5. Vales

    Vales Создатель

    Регистр.:
    5 фев 2008
    Сообщения:
    14
    Симпатии:
    0
    Просто сказать напиши.Если бы я зна ПШП и ПЁРЛ. То не спрашивалбы

    И что это вы мне посоветовали?? Так как вы описали я паршу. А напаршенная база уже имеется. Проверил я её на живучесть(200ОК!) Почеканил на дубли.Блек-лист Максимально возможно отобрал с базы форумы.

    Дальше МНЕ необходимо отобрать ТОЛЬКО АМЕРИКАНСКИЕ ФОРУМЫ. Может я не совсем корректно вырожаюсь, но посетители форумов должны быть америкосы.

    Я конечно понимаю что можна отсортировать по доменной зоне. Например .US Но ведь форумы могут быть и в другой доменной зоне .com .net и т п .?( Это максимально возможна сортировка?)

    За скрипт спасибо. Но если чесно, єто не совсем то что мне необходимо.

    Будте так добры, подскажите такие запросы. А то я не допонимаю. Паршу хрефером. естественно имеется признаки форумов+подставка слов. Думаю многие знают как работает хрефер. Часть баз нашел в сети. Вот с этих баз и нужно максимально возможно отобрать то что мне необходимо.

    И как это всё организовать.?

    Для меня признак того что форум Американский - Американский IP основной массы посетителей моего сайта с этого форума.
     
  6. Zmeyman

    Zmeyman

    Регистр.:
    21 авг 2007
    Сообщения:
    235
    Симпатии:
    76
    Скачиваешь демо версию хрумера _ttp://www.botmaster.ru/more1/ и спользуешь инструмент Фильт базы ссылок. В справке подробно описано как он работает.

    Чтобы не попадать в такие ситуации надо изначально при парсинге составлять правильные запросы, а не собирать все в подряд и потом думать что с этим делать. В хрефере например есть опция, собирать форумы только на английском языке + по зоне фильтровать, да много чего еще можно придумать. Учись правильно парсить!
     
    Vales нравится это.
  7. noobie

    noobie Постоялец

    Регистр.:
    4 мар 2008
    Сообщения:
    103
    Симпатии:
    13
    в данном случае никак.
    алгоритм ваш примерно такой.
    1) берем ссылку с файла. идем на форум.
    2) читаем информацию об ip пользователей (как вы собираетесь достать эту инфу? нужен доступ к логам админке)
    3) проверяем принадлежит ли ip америке (?)
    4) сравниваем массу ссылок вычисляем принадлежит ли БОЛЬШИНСТВО америке.
    5) если да то сохраняем в итоговый файл.

    вот такая схема. просто демонстрация логики. и видно что реально она невыполнима.
     
Статус темы:
Закрыта.