Robots.txt: настройка для WordPress и не только

Что такое robots.txt и зачем он нужен

Robots.txt — это текстовый файл в корне сайта, который указывает поисковым роботам, какие разделы сканировать, а какие — нет. Это не средство защиты (закрытые страницы всё равно могут попасть в индекс через ссылки), а инструмент управления краулинговым бюджетом — количеством страниц, которые робот готов просканировать за визит.

Правильная настройка robots.txt — базовый элемент технического SEO-аудита. Ошибки в этом файле могут привести к полному выпадению сайта из индекса или, наоборот, к индексации служебных страниц.

Синтаксис robots.txt

Основные директивы

User-agent — указывает, к какому роботу относятся правила. User-agent: * — для всех роботов.
Disallow — запрещает сканирование указанного пути. Disallow: /admin/
Allow — разрешает сканирование внутри запрещённой директории. Allow: /admin/public/
Sitemap — указывает URL карты сайта. Sitemap: https://example.com/sitemap.xml
Crawl-delay — задержка между запросами (поддерживается Яндексом, игнорируется Google).
Host — основное зеркало сайта (устаревшая директива Яндекса, но ещё работает).

Правила приоритета

Если URL подходит под несколько правил, Google выбирает наиболее специфичное (длинное). Яндекс действует аналогично, но с нюансами. Порядок строк в файле значения не имеет — важна длина и точность пути.

Robots.txt для WordPress

Базовая настройка

WordPress генерирует виртуальный robots.txt автоматически. Но для полного контроля лучше создать физический файл. Рекомендуемая базовая конфигурация:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?*utm
Disallow: /*?*fbclid

Sitemap: https://example.com/sitemap_index.xml

Что закрывать от индексации

Служебные разделы — wp-admin, wp-includes (кроме ajax).
Страницы поиска — генерируют бесконечное число URL.
Фильтрация и сортировка — параметры ?sort=, ?filter= создают дубли.
UTM-метки — каждая UTM-ссылка = новый URL для робота.
Корзина и личный кабинет — нет смысла индексировать.
Пагинация тегов и архивов — если они не несут SEO-ценности.

Что НЕ закрывать

CSS и JS файлы — Google нужны для рендеринга страницы. Закрытие стилей мешает оценке мобильной адаптации.
Изображения — они могут приносить трафик из Google Images.
Файл sitemap.xml — он должен быть доступен всегда.

Настройка для мультиязычных сайтов

Если сайт имеет языковые версии на поддоменах (en.example.com, de.example.com), каждый поддомен должен иметь свой robots.txt. Для версий в подпапках (/en/, /de/) достаточно одного файла в корне.

Robots.txt и мета-тег robots

Не путайте robots.txt с мета-тегом robots в HTML. Мета-тег управляет индексацией конкретной страницы (noindex, nofollow), а robots.txt — сканированием. Парадокс: если закрыть страницу в robots.txt, робот не увидит мета-тег noindex, и страница может остаться в индексе! Для надёжного удаления из индекса используйте мета-тег noindex, а не Disallow.

Проверка robots.txt

Google Search Console — инструмент проверки robots.txt показывает, заблокирован ли конкретный URL.
Яндекс.Вебмастер — Инструменты, Анализ robots.txt — аналогичная проверка.
Screaming Frog — при краулинге показывает страницы, заблокированные robots.txt.

Частые ошибки

Disallow: / — закрывает весь сайт. Убедитесь, что это не осталось после разработки.
Пустой Disallow — Disallow: (без пути) означает «ничего не запрещено», а не «всё запрещено».
Закрытие CSS/JS — мешает рендерингу, ухудшает оценку страницы.
Забытый Sitemap — всегда указывайте ссылку на sitemap.xml.
Различия в регистре — URL чувствительны к регистру. /Admin/ и /admin/ — разные пути.

Если вы не уверены в настройках robots.txt — закажите SEO-аудит у нашей команды. Мы проверим все технические аспекты и дадим рекомендации. Связаться с нами.

Где должен находиться файл robots.txt?

Строго в корне домена: https://example.com/robots.txt. Файл в подпапке не будет распознан поисковыми роботами. Для поддоменов нужен отдельный файл в корне каждого поддомена.

Можно ли через robots.txt запретить индексацию страницы?

Нет. Robots.txt запрещает сканирование, но не индексацию. Если на страницу ссылаются другие сайты, она может попасть в индекс даже с Disallow. Для запрета индексации используйте мета-тег noindex или HTTP-заголовок X-Robots-Tag.

Как быстро поисковик увидит изменения в robots.txt?

Google обычно проверяет robots.txt раз в 24 часа, но может кэшировать до нескольких дней. Для ускорения отправьте обновлённый файл через Google Search Console. Яндекс обновляет robots.txt при каждом визите робота на сайт.

Robots.txt: настройка для WordPress и не только

Что такое robots.txt и зачем он нужен

Синтаксис robots.txt

Основные директивы

Правила приоритета

Robots.txt для WordPress

Базовая настройка

Что закрывать от индексации

Что НЕ закрывать

Настройка для мультиязычных сайтов

Robots.txt и мета-тег robots

Проверка robots.txt

Частые ошибки

Где должен находиться файл robots.txt?

Можно ли через robots.txt запретить индексацию страницы?

Как быстро поисковик увидит изменения в robots.txt?

Обсудим проект

Отправлено!

Robots.txt: настройка для WordPress и не только

Что такое robots.txt и зачем он нужен

Синтаксис robots.txt

Основные директивы

Правила приоритета

Robots.txt для WordPress

Базовая настройка

Что закрывать от индексации

Что НЕ закрывать

Настройка для мультиязычных сайтов

Robots.txt и мета-тег robots

Проверка robots.txt

Частые ошибки

Где должен находиться файл robots.txt?

Можно ли через robots.txt запретить индексацию страницы?

Как быстро поисковик увидит изменения в robots.txt?

Обсудим проект

Отправлено!

Подождите!