SEO-файлы: robots.txt и sitemap.xml

Файлы robots.txt и sitemap.xml дают возможность организации индексации сайта. Эти два файла хорошо дополняют друг друга, хотя в то же время решают противоположные задачи. Если robots.txt служит для запрета индексации целых разделов или отдельных страниц, то sitemap.xml, напротив, подсказывает поисковым роботам, какие именно УРЛ-адреса нужно индексировать. Разберем каждый из файлов в отдельности.

Что такое robots.txt и sitemap.xml

Файл robots.txt

robots.txt – это файл, в который записываются правила, ограничивающие доступ поисковым роботам к каталогам и файлам сайта для того, чтобы избежать попадания их содержимого в индекс поисковых систем. Файл обязательно должен располагаться в корневой директории сайта и быть доступен по адресу: site.ru/robots.txt.

В robots.txt нужно закрывать от индексации все дублирующиеся и служебные страницы сайта. Часто общедоступные CMS создают дубли, статьи могут быть доступны по нескольким УРЛ-адресам одновременно, например; в категориях (site.ru /category/post-1/), тегах (site.ru /tag/post-1/) и архиве (site.ru/arhive/post-1/). Для того, чтобы не было дублей, необходимо запретить индексацию тегов и архива, в индексе останутся только категории. Под служебными страницами, я имею в виду, страницы администраторской части сайта и автоматически генерируемые страницы, например: выдачу при поиске на сайте.

От дублей просто необходимо избавляться, так как они лишают страницы сайта уникальности. Ведь если в индексе находятся несколько страниц с одинаковым содержимым, но доступные по разным УРЛ-адресам, то контент ни одной из них не будет считаться уникальным. В следствие этого поисковые системы принудительно будут занижать позиции таких страниц в выдаче.

Директивы robots.txt

Директивы – это правила или можно еще сказать команды для поисковых роботов. Самой главной является «User-agent», с ее помощью можно установить правила для всех роботов или для конкретного бота. Эта директива прописывается вначале, а после нее указываются все остальные правила.

# Для всех роботов
User-agent: *

# Для робота Яндекса
User-agent: Yandex

Еще одной обязательной директивой является «Disallow», с ее помощью закрываются разделы и страницы сайта, а ее противоположностью является директива «Allow», которая напротив принудительно разрешает индексировать указанные разделы и страницы сайта.

# Запрещаем индексацию раздела
Disallow: /folder/

# Разрешаем индексацию подраздела с картинками
Allow: /folder/images/

Для того, чтобы указать главное зеркало сайта, например: с www или без, используется директива «Host». Стоит отметить, что главное зеркало прописывается без указания http:// протокола, а вот https:// протокол необходимо указывать. «Host» понимают только боты Яндекса и Mail.ru и прописывать директиву нужно только один раз.

# Если главное зеркало работает по http протоколу
Host: site.ru

# Если главное зеркало работает по https протоколу c www
Host: https://www.site.ru

«Sitemap» – директива, указывающая путь к файлу sitemap.xml, путь необходимо указывать полностью с протоколом, прописывать данную директиву разрешается в любом месте файла.

# Указываем полный путь к файлу sitemap.xml
Sitemap: http://site.ru/sitemap.xml

Для упрощения написания правил существуют специальные символьные операторы:

  • * – обозначает любое кол-во символов, а так же их отсутствие;
  • $ – обозначает, что символ стоящий перед знаком доллара, последний;
  • # – обозначает комментарий, все что находиться в строке после данного оператора будет проигнорировано поисковыми роботами.

После знакомства с основными директивами и специальными операторами уже можно набросать содержимое простенького файла robots.txt.

User-agent: *
Disallow: /admin/
Disallow: /arhive/
Disallow: /tag/
Disallow: /modules/
Disallow: /search/
Disallow: *?s=
Disallow: /login.php

User-agent: Yandex
Disallow: /admin/
Disallow: /arhive/
Disallow: /tag/
Disallow: /modules/
Disallow: /search/
Disallow: *?s=
Disallow: /login.php
# Разрешаем роботом Яндекса индексировать изображения в разделе modules
Allow: /modules/*.png
Allow: /modules/*.jpg

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Ознакомиться с подробным описанием всех директив с примерами их использования можно в публикации на сайте Яндекса в разделе помощь.

Файл sitemap.xml

sitemap.xml – это так называемая карта сайта для поисковых систем. Файл sitemap.xml содержит информацию для поисковых роботов, о страницах сайта, которые необходимо индексировать. В содержимом файла обязательно должны быть указанны УРЛ-адреса страниц, а необязательно можно указать приоритет страниц, частоту переобхода страниц, дату и время последнего изменения страниц.

Необходимо отметить, что sitemap.xml не обязателен, и поисковые системы могут его не учитывать, но в то же время все поисковики говорят о том, что наличие файла желательно и помогает правильно индексировать сайт, особенно, если страницы создаются динамически или на сайте сложная структура вложенности.

Файл sitemap.xml не должен содержать более 50 000 УРЛ-адресов и превышать 10 мегабайт. Если на сайте очень много страниц и невозможно вписаться в существующие правила, то можно сделать разбивку на несколько файлов. При этом должен быть индексный файл, содержащий ссылки на остальные файлы sitemap. О том, как правильно создать sitemap.xml с примерами и описанием, подробно рассказано на официальном сайте протокола.

Вывод напрашивается один: что файлы robots.txt и sitemap.xml необходимы. Правильная настройка индексации – это один из факторов нахождения страниц сайта на более высоких местах в поисковой выдаче, а это цель любого более-менее серьезного сайта.

Добавить комментарий