Иногда, бывает необходимо скрыть от поисковых ботов те или иные страницы, находящиеся на сайте.

К примеру, у вас имеется конфиденциальная информация, доступная только для ваших посетителей или же определенная часть страниц не нуждается в индексации, т.к. представлена в динамическом виде. Причин, по которым администратору сайта иногда приходится скрывать различные элементы от индексации, не так уж и мало.
При решении такой проблемы можно воспользоваться файлом robot.txt.
Стандарт этого файла существует с 1996 года и, мягко выражаясь, устарел. Но, несмотря на это, им можно и даже нужно пользоваться. Разумеется, вы не защитите свой сайт от "невежливых" ботов, например тех, которые воруют контент и делают прочие пакости, но от некоторых роботов все же убережетесь.
Итак. Создаем файл robot.txt и приступаем к закрытию наших каталогов и страничек.
Имена самых известных ботов, пишутся так: Googlebot, StackRambler, msnbot, Aport, Yahoo! Slurp (соответственно, это боты Гугла, Рамблера, MSN, Апорта и Yahoo!).
С ботом Яндекса дела обстоят более запутанно, но основной индексирующий бот, это Yandex/1.01.001 (compatible; Win16; I). Более точная информация по конкретным ботам может быть найдена в сети за считанные минуты.
Сам файл robots.txt состоит из раздельных записей, где первая -указывает имя бота и пишется так:
User-agent: http://bigfozzy.com/Articles/Based/Content/disallow_robots_txt.php

Комментарии

Комментариев нет.