Как найти неиндексируемые форумы ?

Тема в разделе "Зарубежные поисковики", создана пользователем phinik, 4 сен 2008.

Статус темы:
Закрыта.
  1. phinik

    phinik Писатель

    Заблокирован
    Регистр.:
    11 апр 2007
    Сообщения:
    78
    Симпатии:
    16
    Встала задача найти неиндексируемые форумы
    ;)
     
  2. Юрец

    Юрец

    Регистр.:
    20 авг 2006
    Сообщения:
    152
    Симпатии:
    21
    Я не дорвейщик, но если не прав, прошу профи поправить меня:
    inurl:robots .txt intext:"Disallow: /*/"

    При подборе запроса отталкивался от:

    Disallow: /name – запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии name.
    Disallow: /name/ - запрет на индексацию папки name.
    Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение .gif.
    Disallow: /name.php – запрет на индексацию файла name.php.
    Disallow: /name.php?action=print – запрет индексации переменной, например, страниц для печати.


    Соответственно, если знать названия типичных папок форумных движков, либо просто еще немного поиграть с этим запросом, то процесс ускорится.
     
    phinik нравится это.
  3. phinik

    phinik Писатель

    Заблокирован
    Регистр.:
    11 апр 2007
    Сообщения:
    78
    Симпатии:
    16
    Примерно

    Примерно так ?
    intitle:СЛОВО Disallow: /forum/posting.php
    Сработает?
     
  4. Юрец

    Юрец

    Регистр.:
    20 авг 2006
    Сообщения:
    152
    Симпатии:
    21
    ну во-первых, чтобы напарсить только роботсы, надо написать так:
    filetype:txt inurl:robots
    А теперь комбинируя первую строку с нижеследующими, можно, думаю, получить как раз то, что ты ищешь.
    Disallow: /*/
    inurl:forum
    Я, например, кой чего интересного нашел вот так
    filetype:txt inurl:robots inurl:forum "Disallow: /*/"

    А для более точного парсинга добавляем/вычитаем типы форумов (см.ниже), признаки по странам, по языкам...

    Powered by vBulletin
    Powered by Invision Power Board
    Powered by Web Wiz Forums
    Powered by XMB
    Powered by UBB.threads
    Powered by IGG
    Powered by FusionBB
    Powered by PhotoPost
    Powered by phpBB
    powered by Phorum

    ну еще можно добавлять строки типа
    forumdisplay.php?
    showthread.php?
    topic.cgi?
     
  5. petrovsecret

    petrovsecret Постоялец

    Регистр.:
    9 ноя 2007
    Сообщения:
    116
    Симпатии:
    25
    Robots.txt может попасть в индекс в случае если на него явно стоит ссылка, что встречается крайне редко.
    Таким способом имхо больше мусора найдете чем форумов...

    И для чего это вообще надо? Ищите источник уникального контента?:)
     
  6. EugeneVC

    EugeneVC

    Регистр.:
    28 окт 2007
    Сообщения:
    297
    Симпатии:
    83
    а если попробовать так
    есть сайты где публикуются списки доменов
    брать домен оттуда и смотреть на его robots.txt
    подозрительные откладывать

    потом пробежатся по этой базе запрашивая / и /forum - и парсить отдачу на

     
  7. phinik

    phinik Писатель

    Заблокирован
    Регистр.:
    11 апр 2007
    Сообщения:
    78
    Симпатии:
    16
    Да

    Да это так:)
     
Статус темы:
Закрыта.