Урок 5. Что такое Robots.txt?

Дата публикации: 26.09.2012 | Рубрики: Новичкам | Теги: ,
Автор: Радкевич Сергей

Настало время написать кое-что для новичков в мире сео, и сегодня речь пойдет про одну очень полезную «штучку» без наличия которой сложно обойтись.

Robots.txt – самый обычный документ, имеющий безценное влияние и пользу, он находиться в корневом каталоге Вашего ресурса. В этом файле содержатся инструкции для роботов-поисковиков. С помощью этого файлика можно запрещать индексирование какого-либо раздела или страницы на Вашем сайте, также можно давать указания на основное зеркало Вашего сайта. Еще можно указывать путь к другому не менее важному файлу – sitemap. Чем полезен файл robots.txt хорошо наблюдается на примере закрытия от индексации разделов с технической информацией сайта. Если эти страницы открыты для индексации, значит поисковый робот будет пытаться убрать их из индекса. Из-за чего могут пропасть не только технические страницы, но и важная, уникальная информация Вашего сайта.

Как создавать и настраивать robots.txt?

Создается robots.txt очень просто, при помощи обычного (стандартного) блокнота, после чего, этот файлик нужно поместить в корневую папку сайта. Итак, первым делом поисковый робот после того, как начнет входить к Вам на сайт, прочитает этот файл, в котором написаны все инструкции для него. Но главное это не создать robots, а сделать правильный robots. Продолжим, как настроить robots.txt? Для настройки используют две основные команды, первая это User-agent, а вторая – Disallow. Первая отвечает за то, какой именно робот будет следовать инструкциям и выполнять запреты на индексацию, которые прописаны во второй, то есть в Disallow.

Пример примитивной настройки robots.txt:
User-agent:* Disallow:/ — такая инструкция говорит о том, что не будет индексировать полностью весь сайт во всех поисковых системах. Если после слова Disallow написать путь к нужному Вам файлу или каталогу, то не будет индексироваться только этот файл. Не пишите несколько путей и запретов в одной строке – она просто-напросто не будет работать. Если нужно наоборот открыть некоторые файлы к индексации, а остальные закрыть, то используется директива Allow, вместо Disallow. Правильный robots – половина успеха, помните это.

В robots.txt используются, не только две основных, но и несколько дополнительных директив:

Директиву Host используют не всегда, а только тогда, когда Ваш сайт имеет не одно, а несколько зеркал. Данная директива просто-напросто указывает на основное зеркало. Именно это зеркало, указанное в директиве и будет присутствовать в поисковых выдачах.

Директива Sitemap – еще одна дополнительная команда, которая помогает поисковому роботу найти файлик с картой ресурса.

Crawl-delay – директива, использующаяся для того, чтобы создавать задержки между загрузками страниц сайта поисковым роботов. Данная директива является полезной тогда, когда Ваш сайт имеет довольно большое их количество. К примеру: Crawl-delay: 3 – означает паузу между загрузками страниц в 3 секунды.

Request-rate – директива, которая несет ответственность за периодичность загрузок страниц с помощью поискового робота. К примеру: Request-rate: 1/10 – буде означать, что одно страница будет загружать 10 секунд роботом.

Visit-time – редко использующаяся директива, но очень интересная и важная. С её помощью можно выставлять время, в которое Ваш сайт можно посещать. Время здесь выставляется по Гринвичу, то есть: Visit-time: 0400-0600.

К чему приводит неправильно настроенный robots.txt?

Неправильная или некорректная настройка robots.txt приводит к тому, что страницы, которые должны быть очень глубоко спрятаны (страницы с конфиденциальной информацией пользователей или владельцев сайта) будут открыты для индексирования. Бывает и наоборот, нужные Вам страницы просто не будут иметь индекса. Из-за чего правильный robots является очень важной часть SEO-оптимизации сайта.

Правильно ли у меня настроен robots, как это проверить?

Чтобы это сделать, нужно воспользоваться специальным сервисом от Yandex Вебмастер, носящим название: Анализатор robots.txt. Впишите в появившиеся поле нужно ввести имя домена, которые нужно проверить, после Вы увидите все свои ошибки.

Если вам лень забивать себе голову правильным построением роботс.тхт, то воспользуйтесь этим сервисом и просто «подсмотрите» как составлен этот файл у других блогеров.

Похожие записи

Поделись статье с другими:
Позвольте предложить Вам бесплатно подписаться по E-mail и получать актуальную информацию в числе первых.

2 Комментариев к Урок 5. Что такое Robots.txt?

  1. Андрей :

    да роботс нужен просто обязательно сайту

  2. Уведомление: Урок 6. Качественный сео копирайтинг как фактор успешного продвижения | Заработок в интернете

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


9 − 4 =