Вопрос по robots.txt

Статус
В этой теме нельзя размещать новые ответы.
Вопрос по закрытию сайта от индексации.
Вопрос косвенно относится к robots.txt - но все же задать его в этой теме думаю будет правильно.
И так есть способ закрыть листинг каталогов и выполнение файлов через .htaccess
### Запрет на отображение всех файлов
<Filesmatch ".(phtml|php|php3|php4|php5|php6|phps|cgi|exe|pl|asp|aspx|shtml|shtm|fcgi|fpl|jsp|htm|wml)$">
order deny,allow
deny from all
</Filesmatch>

### Разрешение на index.php
<Filesmatch "^index.php">
order allow,deny
allow from all
</Filesmatch>
Это так сказать защита от всяких бэкдоров, и вредоносных скриптов на сайте.
Т.е. такая инструкция говорит что на сайте можно обрабатывать только файл "index.php" который лежит в корне.
Так вот в чем вопрос. Сможет ли поисковик, индексировать директории на сайте, с такими настройками, и если robots.txt будет пуст. Или он по директориям лазить не сможет, и будет ходить только по ссылкам на сайте ?
 
Так вот в чем вопрос. Сможет ли поисковик, индексировать директории на сайте, с такими настройками, и если robots.txt будет пуст. Или он по директориям лазить не сможет, и будет ходить только по ссылкам на сайте ?
он сможет лазить и индексировать там где ответ 200
 
Приветствую, понимаю что не совсем втему, но всё же задам вопрос.
Вообщем есть страничка
Код:
http://site.ru/zakaz/
К ней можно обратиться с POST-запросом типа:
Код:
http://site.ru/zakaz/?name=1&producer=Prod1
сигнатура запроса служит для заполнения формы находящейся на странице.
Так вот, яндекс успешно скушал саму страницу, а также все линки с сигнатурой (каждый как отдельную страницу), которые присутствуют на сайте.
Хотел бы прояснить один момент: можно ли как-то закрыть все линки с сигнатурой, чтобы не получить по ушам от яши?
Впринципе возможно можно сделать не прибегая к robots.txt, а например просто перенаправлять через 301, но мне кажется тогда будет бесконечный цикл перенаправлений...
 
Собственно на свой вопрос я ответ нашёл, в случае с яндексом есть спец-директива Clean-param, описание и примеры доступны тут
Скрытое содержимое доступно для зарегистрированных пользователей!
 
даже если в robots.txt есть запрет на индексацию папки Google все равно пойдет и проиндексирует.
В выдачу такие страницы попадают. Вместо описания пишет что страница запрещена к индексации.

НО ТОТ КОНТЕНТ ЧТО НАХОДИТСЯ В ТЕГЕ TITLE ВСЕ РАВНО ПОПАДАЕТ В ВИДАЧУ

и имеется возможность поиска по нем с помощью оператора intitle:

Для примера

Для просмотра ссылки Войди или Зарегистрируйся
И про эту особенность писали на хакере
Для просмотра ссылки Войди или Зарегистрируйся
 
Поэтому лучше использовать <meta name="robots" content="noindex"/>
 
User-agent: *
Disallow: /

Главная будет и так и так индексироваться и сайт будет в поисковике (если addurl было) по запросу Для просмотра ссылки Войди или Зарегистрируйся
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху