Загрузка...

Конечно, поисковая система, будь то Yandex или Google — это сложнейший программный продукт и она, я бы сказал достаточно “умная”, в плане индексации сайтов и поиска необходимой информации. Но как Вы знаете, любое программное обеспечение, или же определенный механизм, по сути самостоятельно не работает, всегда требуется участие человека, либо для настройки, либо для управления, либо для задания неких начальных параметров. И как Вы понимаете, поисковик не исключение, а значит для лучших результатов индексирования и самое главное для обеспечения правильного индексирования, был придуман robots.txt — файл в котором владельцы сайтов могут определить инструкции для индексирования страниц.

Таким образом, robots.txt — это специальный текстовый файл в котором определены инструкции для различных поисковых систем по индексированию страниц сайт. Если сказать проще, в данном файле указано, что нужно индексировать, а что нет. Как правило, вышеуказанный файл располагается в корне интересующего сайта для быстрого доступа роботу поисковика.

При этом обратите внимание, что имя файла регистрозависимое. Содержимое данного файла состоит из так называемых директив, и достаточно простое для понимания. Директива – это инструкция, указание для поисковой системы.

Теперь давайте определимся, что же мы можем “указывать” поисковым системам. В robots.txt определяются страницы, и даже целые каталоги, которые запрещены к индексированию, указывается основное зеркало сайта, интервал времени загрузки данных, путь к файлу SiteMap (карта сайта) и т.д.

Обычно, в комплекте с наиболее популярными CMS поставляется и оговариваемый нами, файл robots.txt, в котором разработчики в качестве примера, определили корректные инструкции, благодаря которым, сайт будет нормально работать. Joomla не исключение и в корне исходников Вы найдете интересующий файл:

Соответственно давайте поговорим о синтаксисе и используемых директивах. Все текстовое содержимое, следующее после знака # и до конца текущей строки, считается комментарием и восприниматься поисковой системой не будет, таким образом можно указать некоторое пояснение к определенным правилам индексации. Далее первая директива, которая определена в файле robots для joomla — это User-agent. Данный параметр указывает имя робота поисковой системы, для которой будут применены правила индексации, описанные ниже.

В данном примере мы указываем, что следующие правила будут справедливы для абсолютно всех роботов поисковых систем. Если же необходимо задать несколько правил для робота Yandex, в качестве значения директивы User-agent, нужно указать следующее:

Для Google соответственно:

Далее в файле определена директива Disallow, которая указывает, какая папка или страница, по определенному URL, запрещена к индексации. Соответственно запрещать индексировать Вы можете следующие страницы: одинаковые по содержанию (дубли), страницы содержащие личную или конфиденциальную информацию, управляющие или страницы панели администратора, доступ к которым разрешен только определенным пользователям и, наконец абсолютно любые страницы которые в зависимости от логики работы конкретного сайта, не должны быть доступны поисковикам.

К примеру, запрет индексирования каталога administrator выглядит следующим образом:

Или же запрет индексации всего сайта в целом:

В противоположность директиве Disallow, придумана директива Allow, которая указывает какие страницы или каталоги разрешены к индексации.

По сути, мы с Вами только что рассмотрели все директивы, которые использованы в стандартном файле robots txt для джумлы. Но давайте рассмотрим еще несколько.

Директива Crawl-delay – используется для определения интервала времени для закачки данных определенной страницы, то есть задается пауза между скачиванием, при этом она актуальна только для Yandex. Таким образом, указав необходимый тайм-аут, Вы значительно разгрузите используемый сервер, так как скачав определенный ресурс поисковый робот, будет ждать столько секунд, то есть сколько указано в текущей директиве.

Для ускорения индексации так же рекомендуется сгенерировать карту сайта (Site Map), в которой будет приведен список страниц, в виде ссылок. При этом данная карта располагается так же в корне исходников CMS и путь к ней можно определить в файле robots.txt, используя директиву Sitemap, тем самым Вы как бы укажите роботу список доступных страниц сайта, которые подлежат индексации.

Ну и наконец. последняя важная директива которая очень часто используется в файлах robots.txt – это Host, которая используется для поисковой системы Yandex и определяет главное зеркало сайта.

Как Вы уже увидели, значение каждой директивы – это определенный текст и в основном это определенный путь, соответственно для формирования данного значения предусмотрены два управляющих символа, которые я хотел бы рассмотреть.

Символ “*” – указывает абсолютно любую последовательность символов и бывает очень полезным, если необходимо задать некоторое произвольное значение, идущее перед заданным.

В данном примере запрещены к индексации все страницы в адресе которых содержится параметр admin. Символ “$”- используется для отмены добавления к каждому правилу, по умолчанию, выше рассмотренного символа.

В данном примере мы запрещаем к индексации вашсайт./ru/page, но не запрещаем вашсайт./ru/page/one.

{

}