Каждый поисковик использует веб-пауков для индексирования сайтов. Казалось бы, от них не скрыться никому. Однако, используя всего несколько команд, вы способны превратить их в послушных, почти домашних существ.
Что произойдет, если подсунуть роботу поисковой системы незащищенный сайт? Правильно, он сделает свое черное дело :)
У вас есть шанс увернуться от него, избежать его путешествий! Но если у вас нет маленького текстового файлика в корневом каталоге сервера, ваш сайт может стать таким же доступным, как Клаудиа Шиффер в прозрачном полиэтиленовом бикини.
Поисковые системы типа Excite или Altavista используют веб-пауки, также известных как роботы, для того, что бы создавать индексы в их базах данных. Эти роботы прочесывают каталоги HTML файлов, загружая страницы одну за другой по обычным ссылкам на них, и обновляя базу, в зависимости от того какую текстовую или meta-информацию они нашли.
Далее — для таких же как я противников того, что какое-то там виртуальное насекомое будет неконтролируемо лазить по вашим файлам. Это чуток смахивает на муравьёв под брюками — незабываемые ощущения, но все-таки хочется как-то контролировать ситуацию. Это можно делать с помощью специального файла.
К файлу robots.txt обращается каждый уважающий себя паук перед тем как отправиться в путешествие; в нем указано, как именно следует каталогизировать ваш сайт. Это должен быть текстовый файл ASCII, лежащий в корневой директории сервера. Обычно это директория, где расположена «домашняя» страничка. Файл определяет, какие директории и файлы пауку индексировать нельзя.
Протокол ограничения действий робота был представлен Мартином Костером в 1994 году для решения проблемы веб-пауков при том, что их популярность тогда резко возрастала. Страшна, прежде всего, ресурсная проблема — поскольку роботы слабо контролируемы, они стреляли запросами как из пулемета. Естественно, сервера пытались с такой же скоростью «отдавать» файлы.
Другая проблема — в том, что роботы при индексировании информации глубоко зарывались в дерево каталогов, доставая даже до cgi-скриптов. Протокол этот быстро нашел поддержку среди веб-разработчиков как метод организации процесса индексирования.
С тех пор размеры интернета поразительно увеличились, теперь его используют миллионы людей. А веб-пауков только прибавилось. И сейчас, как никогда, всем веб-разработчикам необходимо иметь правильно написанный файл robots.txt .
В синтаксисе этого файла есть свои ньюансы. Если все должно работать безотказно и не позволять роботам смотреть на «служебные» страницы, вам следует быть предельно внимательными, что б не допустить *ни одной* ошибки или опечатки. В завершенном robots.txt фактически не на что смотреть, но если у вас сложный сайт можете пойти по легкому пути и принять первоклассную помощь, которую вам предлагает RoboGen на http://www.rietta.com/robogen/ . Он хорош для Windows9x, но, на момент написания статьи, под WindowsNT он не запускался.
RoboGen распространяется в двух версиях: полная и ограниченная. Ограниченная (Limited) — это голый скелет: она просто создает файлы исключения (robots.txt). В ней недостает возможности открытия существующих файлов и авто-заливки их прямо на FTP сервер. Полная (Standart) версия более функциональна. Она делает все то же, что и ограниченная, плюс то, чего она не делает. Это открытие существующих файлов и заливка файлов на FTP сервер. Бесплатная ознакомительная версия полной программы доступна для загрузки, а стоимость программы составляет всего $12.95. Довольно дешево для такого инструмента!
Если вы предпочитаете держать деньги в кармане, тогда можете разогревать пальцы — сейчас будем стучать по клавиатуре, осваивая азы кодирования — а почему бы и нет? Это не сложно - просто кропотливо. Скорость набора тут, пожалуй, важнее, чем познания в компьютерах.
Каждая секция включает в себя имя пользовательской программы (робота) и пути, которые он не должен видеть. Вы не знали, что у поисковых пауков есть имена? Да — Сеть очень дружественное место и многое называется не своими первичными именами :)
У основных поисковых систем имена такие:
ALTA VISTA - Scooter, VScooter, Mercator
EXCITE - Architext
HOTBOT/AOL - Inktomi's Slurp
INFOSEEK - Sidewinder, Mozilla
LYCOS - T-Rex, Mozilla
INKTOMI - Slurp
GOOGLE - Backrub, Googlebot
N. LIGHT - Gulliver
WEBCRAWLER - Excites Architext
Вскоре вы сможете отметить, какой из этих ребят с чувством юмора, а какой ведет скучный образ жизни. Мне симпатичен Inktomi :) Думаю, я смог бы иметь дело с этими ребятами.
Нужно помнить, что роботы могут получить *все* доступные файлы, если они явно не запрещены в вашем robots.txt . Разрешено все, что не запрещено. Обычно, вы можете прочесть этот файл просто сделав запрос из броузера, например: www.mydomain.com/robots.txt . Вы увидите кодированый текстовый файл, но очень пригодный для чтения.
Всё это документировано Стандартом Исключения Страниц Роботами, и все роботы должны понимать и уважать правила в файле robots.txt .
Примеры:
User-agent: *
Disallow:
Пояснение:
Звездочка (*) в поле User-agent это сокращения для "всем роботам". Потому что разрешено все, что не запрещено.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Пояснение:
В примере, все роботы могут видеть все директории за исключением трех упомянутых.
User-agent: BadBot
Disallow: /
User-agent: *
Disallow: /private/
Тут: Роботу с именем BadBot запрещено все. Пустая строка означает новую «запись» - команда для нового робота. Все остальные роботы могут видеть все, за исключением папки private .
User-agent: WeirdBot
Disallow: /tmp/
Disallow: /private/
Disallow: /links/listing.html
User-agent: *
Disallow: /tmp/
Disallow: /private/
Этот код предотвращает просмотр страницы листинга, временной папки и папки private роботом WeirdBot. Все остальные роботы видят все, кроме временной папки и private . Если думаете, что этот код неэффективен -- вы правы :)
Ок — это довольно полный обзор концепции robots.txt . Но перед тем как вы сорветесь с места в поисках старого верного текстового редактора и напишете свой супер модный контроллер роботов третьего тысячелетия, есть одна очень, очень важная вещь касаемо файлов robots.txt , особенно для тех, у кого коммерческие веб-сайты или другая совершенно секретная информация.
Как обычный коммерческий сайт вы можете предлагать загрузить покупку со страницы после ее оплаты. Понятно, что вы не хотите, что б пауки лазили по таким страницам — если вы, конечно, не хотите, что бы можно было бесплатно скачать вашу продукцию с поисковой машины. Это нехорошо для бизнеса — для счетчика скачиваний хорошо, а для бизнеса — нехорошо. :) И вы честно пропишите все эти адреса в robots.txt что бы избежать проблем, но...
Большое количество людей уже знают об этом robots.txt файле... Некоторые не-очень-хорошие-гады подумают: «Зачем платить? Я ж могу просто набрать в броузере: http://www.yoursite.com/robots.txt »
Оййй! Очень чувствительный пункт из robots.txt теперь открыт глазам всех. Любой может просто перенаправить броузер в указанную директорию и, зачастую, скачать программу бесплатно. Опять — нехорошо для бизнеса, мои друзья!
Вот оно, решение.
Перестаньте беспокоиться о robots.txt . Наоборот, перечислите все секретные папки, которые там и должны быть — это для защиты от их индексирования поисковыми движками. Но убедитесь, что все файлы находятся в нессылаемых неизвестных поддиректориях или, еще надежнее, защищены CGI скриптом.
Если вы используете менее безопасный вариант с неупомянутыми подпапками, не забудьте вставить в коренную (ту, которую вы прописали в robots.txt, страничку index.html. Иначе сервер (с настройками по умолчанию) покажет полный листинг файлов и директорий. В самом index.html можно написать все, что угодно.
Это может быть простенький html файл, который сообщает посетителям, что им не разрешено смотреть в эту подпапку, или можно сделать html файл с перенаправлением на другую страницу. Но запомните, никогда не давайте людям листинг чего-либо в директории, не разместив index.html в какой бы это ни было директории — это очень плохая привычка. Пожалуйста, не делайте так *нигде*. Рано или поздно это приведет к неприятностям.
Если сайт не коммерческий, все что оказывается в robots.txt — только для косметических поправок или в целях приватности. Понятно, это важные вещи, но на коммерческом сайте мы говорим о потере денег — куда более серьезно!
Если вы все это еще не воплотили в жизнь, тогда маленький, старый и седой robots.txt должен получить долю и вашего внимания в не очень отдаленном будущем. Вы не пожалеете о проведенном времени.