Библиотека Интернет Индустрии I2R.ru |
|||
|
Robots.txtРазные поисковые системы по-разному ранжируют – это факт. Вот и получается, что у них накапливается множество страниц, почти идентичных по содержанию и одинаковых по размеру. Что делать? Ведь паук индексирует по умолчанию все страницы с ресурса. А поисковые системы не очень любят повторяющиеся страницы и называют это страшным словом "спам". А если cgi-скрипты, виртуальные директории и т.д. Как отделить зерна от плевел? В "далеком", по виртуальным меркам конечно, 1994 году был придуман способ управления поисковыми роботами. Файл Robots.txt в корневой директории создан, чтобы решить все перечисленные проблемы. Почему Robots.txt? Немного истории: имя должно быть одинаково для любой операционной системы, расширение не должно требовать специальных настроек сервера, он должен быть таким, чтобы его можно было легко запомнить и не спутать с существующими файлами. Создать файл можно в блокноте или любом другом совместимом редакторе, хоть просто в DOS'е. Единственное, за чем необходимо следить при создании, – это синтаксис. Синтаксис же довольно прост:
User-agent: Spidername # Имя паука, а не поисковой машины Если необходимо запретить нескольким роботам индексировать одни и те же страницы – можно написать имена пауков через пробел в поле User-agent. Если же необходимо запретить индексировать все документы всем роботам, то следует воспользоваться следующей записью:
User-agent: * Необходимо обращать особенное внимание на регистр при составлении Robots.txt, так как паук очень чувствителен к нему. Добавить можно только одно: если Вы пользуетесь суб-доменом, то у Вас изначально могут возникнуть некоторые проблемы, потому что Robots.txt должен располагаться в корневой директории. Рамблер не индексирует ресурсы, находящиеся на публичных серверах (geocities, tripod, и др.), но зато индексирует с популярного народа, хотя гораздо медленнее, чем другие страницы. Так что стоит позаботиться о "прямом" домене – 40 у.е. в год - не такая уж большая цена. Далее для вашего удобства приводится список имен поисковых роботов, так как их имена могут отличаться от названий поисковых машин:
Search Engine: User-Agent Как видно из списка, имена некоторых роботов повторяются и их нельзя никак различить в файле Robots.txt. Данил Левенстам |
|
2000-2008 г. Все авторские права соблюдены. |
|