[Ищу] Нужно решение, которое может показать популярность сабов

Статус
В этой теме нельзя размещать новые ответы.

vestal

Гуру форума
Регистрация
3 Ноя 2007
Сообщения
172
Реакции
59
Есть база ссылок, где много повторных доменов и сабдоменов, нужно такое решение, чтобы можно было отделить домены от сабдоменов и показать наиболее популярные (например таких то сабдоменов - 100, а таких то 55 и тд), такое ощущение, что я такое решение где то видела, но забыла где, может кто нибудь знает что можно применить, может это даже в экселе можно сделать, но как?
 
Можно намутить в TextPipe такое, используя регулярки.
Допустим обрезать урл до / (удалив предварительно http://

Потом заюзать фильтр, который посчитает дубликаты "Count duplicate lines"-

Потом сортировать по первым 4м (прикинь, сколькизначные цифры получились и поставь соответственно) цифрам,по убыванию

В итоге у тебя на выходе будет лист с количеством повторов и сабдоменов.




Также была какая-то софтина от на блоге Как-Так, которая обрезала до сабов.
 
Serg78 спасибо тебе огромное, твоя метода работает! На будущее, если кто захочет отделить домены от сабдоменов, или отфильтровать домены, то есть простой способ. С помощью этой тулзы, что предложил Serg7 обрезаем сперва до сабов (получаем текстовый файл 1), затем исходный файл обрезаем до доменов (получаем файл 2), потом хрумом (инструменты - фильтр базы ссылок) ну или ещё чем вычитаем из базы 1 базу 2 и получаем чистый список сабов, потом опять обрезаем до доменов, ну а дальше, как Serg78 сказал сортируем по убыванию (чтобы повторы шли рядом, я так поняла иначе текстпайп не посчитает повторы) и текстпайпом считаем дубликаты и им же сортируем по числам и на выходе получаем самые популярные сабы:)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху