Фильтрация гос. сайтов

Статус
В этой теме нельзя размещать новые ответы.
Такие как в примере лучше конечно удалять(чего не скажешь о городских порталах), чаще всего есть какой-то орган, чей сайт может это быть.
 
Конечно думаю, что стоит удалять, но тема то о том, как вот например сайт, который в примере фильтровать? Ведь ничего в доменном имени у него отличительного нету...
 
Наверное, нужно всё-таки искать какие-то повторяющиеся признаки и по ним отфильтровывать. Полазить по заведомо известным сайтам такого рода и поискать типовые элементы (под ними я понимаю и текст и графику). Вот, на вскидку, к примеру - на многих гос. сайтах в тайтле и в теле страницы часто встречается фраза "официальный сайт администрации"... гугл сразу выдаёт по такому запросу порядка полутора миллионов ресов - значит, это довольно распространённый элемент =) Просмотрите внимательно такие сайты, проявите фантазию и в результате сможете отсеять если не все, то значительную часть нежелательных "доноров" из своей базы.
 
Думаете одни вы только спамаете? а сколько буржуйского спама сыпется по всему миру в том числе и на ру-сайты, в том числе и на сайты гос.учреждений. Особенность бюрократической системы, что им на это пох - просто не пройдет это или удаляют все сразу. Потому как всегда есть недовольные граждане, которые могут понаписать кучу жалоб и матюков.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху