Файл robots.txt заполнение, проверка и важность для сайта

Файл robots.txt. Это текстовый файл, который указывает роботам поисковых систем какие страницы сайта добавлять в базу поисковых систем, а какие нет. Правильное заполнение файла обеспечивает сайту правильную индексацию сайта. Проверяем есть ли он на сайте по адресу ваш_домен/robots.txt.

И уже внутри файла robots с помощью директив мы прописываем указания для роботов поисковых систем:

ДирективаЧто делает
User-agent *Указывает на робота, для которого действуют перечисленные в robots.txt правила.
DisallowЗапрещает индексирование разделов или отдельных страниц сайта.
SitemapУказывает путь к файлу Sitemap, который размещен на сайте.
Clean-paramУказывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
AllowРазрешает индексирование разделов или отдельных страниц сайта.

Большинство систем управления сайтами добавляют дефолтные файлы, в которых прописывают самые необходимые настройки, но важно помнить, что файл robots для каждого сайта будет индивидуальный и его необходимо настроить именно для своего сайта.

1. Проверяем директории для разных поисковых систем

В России мы в ориентируемся на 2 основные поисковые системы это Яндекс и Google, поэтому в файл robots добавляем правила для роботов этих поисковых систем. Для поисковой системы Яндекс мы приписываем: User-agent: Yandex. Для поисковой системы Google мы прописываем: User-agent: Googlebot. И общие правила для всех остальных роботов: User-agent: *

2. Что закрываем от индексации

Дальше используя директории Disallow для каждого робота прописываем, какие разделы сайта закрыть от индексации.

Что рекомендую закрыть от индексации:

  • Административные разделы сайта (служебные страницы, это путь по которому у вас расположена административная часть сайта, для разных систем управления сайтами он будет разный)
  • Страницы с личной информацией пользователей
  • Корзину, оформление товара
  • Сравнение товаров
  • Документы PDF, DOC, XLS
  • Страницы с версиями для печати
  • Результаты поиска на сайте
  • Фид файлы
  • Страницы сортировки, фильтров (если они не используются для продвижения)
  • Неуникальные страницы
  • Дубликаты (страницы с одинаковым наполнением но разным адресом, календари, архивы, RSS)
  • Документы, которые не несут пользу для пользователя

Узнать какие страницы попадают под индексацию роботов поисковых систем можно через любой парсер.

Например: если вы хотите закрыть от индексации раздел сайта admin, то необходимо прописать следующую директорию:

Disallow: /admin

3. Открыть для индексации

Закрывая служебные страницы сайта, мы закрываем все внутренние разделы этих папок, а часто именно там лежат картинки, файлы css и JavaScript которые позволяют роботу получить больше данных о сайте и увидеть как сайт отображается в браузере, поэтому рекомендую открыть такие файлы для индексации.

Например: если мы хотим открыть для индексации файлы js, то необходимо прописать следующую директорию:

Allow: /admin/javascript/*.js

4. Спецсимволы

Сделать настройки файла robots более гибкими позволяют спецсимволы $, *, #

*- означает любую последовательность символов

Например:

Disallow: /*?sort=

То есть все URL на сайте, которые содержат ?sort= будут закрыты от индексации

$ — используется для отмены правила *

Например:

Disallow: /checkout/$

Будет значить, что раздел /checkout/ закрыт от индексации, но раздел /checkout/page будет доступна

# — комментарий, все что после этого символа в строке роботом не учитывается

5. Директория Sitemap

Обязательно в файле необходимо добавить путь к вашей карте сайта формате xml, для этого используем директорию Sitemap.

Пример:

Sitemap: https://ваш_сайт/sitemap.xml

После того как файл создан загружаем его в корень вашего сайта и проверяем правильность заполнения через панель Вебмастер Яндекс Инструменты — Анализ robots.txt

Также после загрузки нового файла парусим сайт, чтобы проверить все ли правила применены.

Заключение

И обратите внимание, что директория Host, которая раньше учитывалась роботом Яндекса и определяла главное зеркало сайта больше не работает. Когда вижу, что она прописана, думаю, что сайтом давно никто не занимался, так как с файлом robots работаем регулярно. Если вы начали изучать технические настройки сайта, то вам точно будет интересно почитать про настройку несуществующих страниц.

Рис. 1 Картинка в файле robots.txt
Seo специалист Гончаренко Юлия

Гончаренко Юлия
SEO специалист, телеграм

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *