О стандарте исключений для роботов

Файл robots.txt на сайте будет работать в качестве запроса, даваемого роботам игнорировать указанные файлы и каталоги при обходе сайта. Это может быть, например, из-за предпочтений частной жизни от результатов поисковой системы, или убеждение, что содержимое выбранной директории может вводить в заблуждение или не иметь отношения к категоризации сайта в целом, или из желания, чтобы Приложение работало только на определенных данных. Ссылки на страницы, указанные в файле robots.txt, все еще могут отображаться в результатах поиска, если они связаны со страницами обхода.
Файл robots.txt охватывает одну. Кроме того, каждый протокол и порт нуждается в своем собственном файле robots.txt; http://example.com/robots.txt не распространяется на страницах под https://example.com:8080/ или https:// example.com /.
Недостатки
Несмотря на использование термина «Разрешить» и «Запретить», протокол имеет исключительно рекомендательный характер, что учитывается при раскрутке Интернет-ресурсов. Продвижение сайтов всегда опирается на сотрудничество с веб-роботами, так что маркировка площади участка вне границ с robots.txt не гарантирует исключения всех веб-роботов, в частности, вредоносных веб-роботов.
Хотя вполне возможно, чтобы предотвратить поиск в каталоге абсолютно всем, включая веб-роботов, и настройки безопасности сервера сделаны правильно, то запрещают директивы, приведенные в файле robots.txt, и существование этих каталогов представлено для всех.
Не существует официального органа, стандартов или RFC для протокола robots.txt. Он был разработан на базе консенсуса в июне 1994 года членами списка рассылки роботов. Информация, указывающая участки, которые не должны быть доступны, указана в файле robots.txt в корневом каталоге web-сайта. Образцы robots.txt соответствуют простому сравнению подстроки, поэтому следует соблюдать осторожность и быть убежденным, что модели для каталогов имеют окончательный символ '/', в противном случае все файлы с именами, которые начинаются с этой подстроки будут соответствовать образцу robots.txt, а не только те, которые предназначены для каталога.
Альтернативы
Многие роботы могут также обходить специальный агент пользователя на веб-сервере при выборке данных. Веб-администратор может также настроить сервер для автоматического возврата недостаточности (или пройти альтернативный контент ), когда он обнаруживает связь с помощью одного из роботов.
Примеры
Этот пример говорит всем роботам держаться подальше от веб-сайта:
User-Agent: *
Disallow: /
Пример, который говорит всем роботам, чтобы не входить в один конкретный файл:
User-Agent: *
Disallow: / каталог / file.html