RTFM! статьи, советы, скрипты
::Заработок с помощью сайта ::JScript по-русски! ::Все русские мануалы::
МЕНЮ
О САЙТЕ
НОВОСТИ
СТАТЬИ
КНИГИ
АППЛЕТЫ
СВЯЗЬ

СЧЕТЧИКИ
Rambler's Top100
Рейтинг@Mail.ru
Яндекс цитирования

Дрессируем пауков

Автор: Краснов Игорь Сайт: http://www.krasnov.ru/     Рейтинг: N/A из 7       <<НАЗАД
   
   Каждый поисковик использует веб-пауков для индексирования сайтов. Казалось бы, от них не скрыться никому. Однако, используя всего несколько команд, вы способны превратить их в послушных, почти домашних существ.
   
   Что произойдет, если подсунуть роботу поисковой системы незащищенный сайт? Правильно, он сделает свое черное дело :)
   
   У вас есть шанс увернуться от него, избежать его путешествий! Но если у вас нет маленького текстового файлика в корневом каталоге сервера, ваш сайт может стать таким же доступным, как Клаудиа Шиффер в прозрачном полиэтиленовом бикини.
   
   Поисковые системы типа Excite или Altavista используют веб-пауки, также известных как роботы, для того, что бы создавать индексы в их базах данных. Эти роботы прочесывают каталоги HTML файлов, загружая страницы одну за другой по обычным ссылкам на них, и обновляя базу, в зависимости от того какую текстовую или meta-информацию они нашли.
   
   Далее — для таких же как я противников того, что какое-то там виртуальное насекомое будет неконтролируемо лазить по вашим файлам. Это чуток смахивает на муравьёв под брюками — незабываемые ощущения, но все-таки хочется как-то контролировать ситуацию. Это можно делать с помощью специального файла.
   
   К файлу robots.txt обращается каждый уважающий себя паук перед тем как отправиться в путешествие; в нем указано, как именно следует каталогизировать ваш сайт. Это должен быть текстовый файл ASCII, лежащий в корневой директории сервера. Обычно это директория, где расположена «домашняя» страничка. Файл определяет, какие директории и файлы пауку индексировать нельзя.
   
   Протокол ограничения действий робота был представлен Мартином Костером в 1994 году для решения проблемы веб-пауков при том, что их популярность тогда резко возрастала. Страшна, прежде всего, ресурсная проблема — поскольку роботы слабо контролируемы, они стреляли запросами как из пулемета. Естественно, сервера пытались с такой же скоростью «отдавать» файлы.
   
   Другая проблема — в том, что роботы при индексировании информации глубоко зарывались в дерево каталогов, доставая даже до cgi-скриптов. Протокол этот быстро нашел поддержку среди веб-разработчиков как метод организации процесса индексирования.
   
   С тех пор размеры интернета поразительно увеличились, теперь его используют миллионы людей. А веб-пауков только прибавилось. И сейчас, как никогда, всем веб-разработчикам необходимо иметь правильно написанный файл robots.txt .
   
   В синтаксисе этого файла есть свои ньюансы. Если все должно работать безотказно и не позволять роботам смотреть на «служебные» страницы, вам следует быть предельно внимательными, что б не допустить *ни одной* ошибки или опечатки. В завершенном robots.txt фактически не на что смотреть, но если у вас сложный сайт можете пойти по легкому пути и принять первоклассную помощь, которую вам предлагает RoboGen на http://www.rietta.com/robogen/ . Он хорош для Windows9x, но, на момент написания статьи, под WindowsNT он не запускался.
   
   RoboGen распространяется в двух версиях: полная и ограниченная. Ограниченная (Limited) — это голый скелет: она просто создает файлы исключения (robots.txt). В ней недостает возможности открытия существующих файлов и авто-заливки их прямо на FTP сервер. Полная (Standart) версия более функциональна. Она делает все то же, что и ограниченная, плюс то, чего она не делает. Это открытие существующих файлов и заливка файлов на FTP сервер. Бесплатная ознакомительная версия полной программы доступна для загрузки, а стоимость программы составляет всего $12.95. Довольно дешево для такого инструмента!
   
   Если вы предпочитаете держать деньги в кармане, тогда можете разогревать пальцы — сейчас будем стучать по клавиатуре, осваивая азы кодирования — а почему бы и нет? Это не сложно - просто кропотливо. Скорость набора тут, пожалуй, важнее, чем познания в компьютерах.
   
   Каждая секция включает в себя имя пользовательской программы (робота) и пути, которые он не должен видеть. Вы не знали, что у поисковых пауков есть имена? Да — Сеть очень дружественное место и многое называется не своими первичными именами :)
   
   У основных поисковых систем имена такие:
   
   ALTA VISTA - Scooter, VScooter, Mercator
   EXCITE - Architext
   HOTBOT/AOL - Inktomi's Slurp
   INFOSEEK - Sidewinder, Mozilla
   LYCOS - T-Rex, Mozilla
   INKTOMI - Slurp
   GOOGLE - Backrub, Googlebot
   N. LIGHT - Gulliver
   WEBCRAWLER - Excites Architext
   
   Вскоре вы сможете отметить, какой из этих ребят с чувством юмора, а какой ведет скучный образ жизни. Мне симпатичен Inktomi :) Думаю, я смог бы иметь дело с этими ребятами.
   
   Нужно помнить, что роботы могут получить *все* доступные файлы, если они явно не запрещены в вашем robots.txt . Разрешено все, что не запрещено. Обычно, вы можете прочесть этот файл просто сделав запрос из броузера, например: www.mydomain.com/robots.txt . Вы увидите кодированый текстовый файл, но очень пригодный для чтения.
   Всё это документировано Стандартом Исключения Страниц Роботами, и все роботы должны понимать и уважать правила в файле robots.txt .
   
   Примеры:
   
   User-agent: *
   Disallow:
   
   Пояснение:
   
   Звездочка (*) в поле User-agent это сокращения для "всем роботам". Потому что разрешено все, что не запрещено.
   
   User-agent: *
   Disallow: /cgi-bin/
   Disallow: /tmp/
   Disallow: /private/
   
   Пояснение:
   
   В примере, все роботы могут видеть все директории за исключением трех упомянутых.
   
   User-agent: BadBot
   Disallow: /
   
   User-agent: *
   Disallow: /private/
   
   Тут: Роботу с именем BadBot запрещено все. Пустая строка означает новую «запись» - команда для нового робота. Все остальные роботы могут видеть все, за исключением папки private .
   
   User-agent: WeirdBot
   Disallow: /tmp/
   Disallow: /private/
   Disallow: /links/listing.html
   
   User-agent: *
   Disallow: /tmp/
   Disallow: /private/
   
   Этот код предотвращает просмотр страницы листинга, временной папки и папки private роботом WeirdBot. Все остальные роботы видят все, кроме временной папки и private . Если думаете, что этот код неэффективен -- вы правы :)
   
   Ок — это довольно полный обзор концепции robots.txt . Но перед тем как вы сорветесь с места в поисках старого верного текстового редактора и напишете свой супер модный контроллер роботов третьего тысячелетия, есть одна очень, очень важная вещь касаемо файлов robots.txt , особенно для тех, у кого коммерческие веб-сайты или другая совершенно секретная информация.
   
   Как обычный коммерческий сайт вы можете предлагать загрузить покупку со страницы после ее оплаты. Понятно, что вы не хотите, что б пауки лазили по таким страницам — если вы, конечно, не хотите, что бы можно было бесплатно скачать вашу продукцию с поисковой машины. Это нехорошо для бизнеса — для счетчика скачиваний хорошо, а для бизнеса — нехорошо. :) И вы честно пропишите все эти адреса в robots.txt что бы избежать проблем, но...
   
   Большое количество людей уже знают об этом robots.txt файле... Некоторые не-очень-хорошие-гады подумают: «Зачем платить? Я ж могу просто набрать в броузере: http://www.yoursite.com/robots.txt »
   
   Оййй! Очень чувствительный пункт из robots.txt теперь открыт глазам всех. Любой может просто перенаправить броузер в указанную директорию и, зачастую, скачать программу бесплатно. Опять — нехорошо для бизнеса, мои друзья!
   
   Вот оно, решение.
   
   Перестаньте беспокоиться о robots.txt . Наоборот, перечислите все секретные папки, которые там и должны быть — это для защиты от их индексирования поисковыми движками. Но убедитесь, что все файлы находятся в нессылаемых неизвестных поддиректориях или, еще надежнее, защищены CGI скриптом.
   
   Если вы используете менее безопасный вариант с неупомянутыми подпапками, не забудьте вставить в коренную (ту, которую вы прописали в robots.txt, страничку index.html. Иначе сервер (с настройками по умолчанию) покажет полный листинг файлов и директорий. В самом index.html можно написать все, что угодно.
   
   Это может быть простенький html файл, который сообщает посетителям, что им не разрешено смотреть в эту подпапку, или можно сделать html файл с перенаправлением на другую страницу. Но запомните, никогда не давайте людям листинг чего-либо в директории, не разместив index.html в какой бы это ни было директории — это очень плохая привычка. Пожалуйста, не делайте так *нигде*. Рано или поздно это приведет к неприятностям.
   
   Если сайт не коммерческий, все что оказывается в robots.txt — только для косметических поправок или в целях приватности. Понятно, это важные вещи, но на коммерческом сайте мы говорим о потере денег — куда более серьезно!
   
   Если вы все это еще не воплотили в жизнь, тогда маленький, старый и седой robots.txt должен получить долю и вашего внимания в не очень отдаленном будущем. Вы не пожалеете о проведенном времени.
   Это я вам обещаю :)
   
   


<<НАЗАД      ОЦЕНИТЬ СТАТЬЮ    ВЕРСИЯ ДЛЯ ПЕЧАТИ>>
Статья прочитана :  раз.




пейкюлю



 
 
 
 
 
pauk ©® 2000-2015. All rights reserved.
При перепечатке ссылка на сайт и указание обязательны.
Мнение администрации сайта не всегда совпадает с мнением автора.
Орфография и пунктуация - авторские.
Администрация не несет никакой ответственности за использование материалов.
.
Protected by Copyscape DMCA Takedown Notice Infringement Search Tool