RTFM! статьи, советы, скрипты
::Заработок с помощью сайта ::JScript по-русски! ::Все русские мануалы::
МЕНЮ
О САЙТЕ
НОВОСТИ
СТАТЬИ
КНИГИ
АППЛЕТЫ
СВЯЗЬ

СЧЕТЧИКИ
Rambler's Top100
Рейтинг@Mail.ru
Яндекс цитирования

О файле robots.txt

Автор: Александр Довженко Сайт: http://www.manual.ru/     Рейтинг: N/A из 7       <<НАЗАД
   
   Robots.txt - это первый файл, к которому при индексации сайта обращаются поисковые системы. В нем описываются права доступа для поисковых роботов, при чем можно указать разные права для разных роботов. То есть вы можете запретить или разрешить роботу индексировать тот или иной каталог. Файл robots.txt должен присутствовать на всех сайтах!
   
   Для этого файла существует общепринятый стандарт под названием Standart for Robot Exclusion.
   Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_id или path_root закончена. Если в строке User-Agent указано несколько agent_id, то условие path_root в строке Disallow будет выполнено для всех одинаково. Ограничений на длину строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле /robots.txt своего agent_id, то он игнорирует /robots.txt.
   
   Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки
   
    User-Agent: *
   
   
   Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_id, то робот волен выбирать любую из них.
   
   Пример 1:
   
   User-Agent: *
   
   # robots.txt fot http://cvcdesign.diaspora.ru
   
   Disallow: /cgi-bin/ /img/ /zip/
   
   В примере 1 всем роботам запрещается индексировать каталоги img, zip, cgi-bin
   
   Пример 2
   
   User-Agent: *
   
   Disallow: /
   
   User-Agent: Lycos
   
   Disallow: /cgi-bin/ /tmp/
   
   В примере 2 всем роботам запрещается индексировать сайт. Но роботу Lycos разрешается индексировать все каталоги, кроме cgi-bin, tmp/
   
   Как я уже говорил файл robots.txt должен присутствовать на всех сайтах. Он используется большинством поисковых систем.
   
   
   
   


<<НАЗАД      ОЦЕНИТЬ СТАТЬЮ    ВЕРСИЯ ДЛЯ ПЕЧАТИ>>
Статья прочитана :  раз.




пейкюлю



 
 
 
 
 
pauk ©® 2000-2015. All rights reserved.
При перепечатке ссылка на сайт и указание обязательны.
Мнение администрации сайта не всегда совпадает с мнением автора.
Орфография и пунктуация - авторские.
Администрация не несет никакой ответственности за использование материалов.
.
Protected by Copyscape DMCA Takedown Notice Infringement Search Tool