Robots.txt: настройка для WordPress и не только
Что такое robots.txt и зачем он нужен
Robots.txt — это текстовый файл в корне сайта, который указывает поисковым роботам, какие разделы сканировать, а какие — нет. Это не средство защиты (закрытые страницы всё равно могут попасть в индекс через ссылки), а инструмент управления краулинговым бюджетом — количеством страниц, которые робот готов просканировать за визит.
Правильная настройка robots.txt — базовый элемент технического SEO-аудита. Ошибки в этом файле могут привести к полному выпадению сайта из индекса или, наоборот, к индексации служебных страниц.
Синтаксис robots.txt
Основные директивы
- User-agent — указывает, к какому роботу относятся правила.
User-agent: *— для всех роботов. - Disallow — запрещает сканирование указанного пути.
Disallow: /admin/ - Allow — разрешает сканирование внутри запрещённой директории.
Allow: /admin/public/ - Sitemap — указывает URL карты сайта.
Sitemap: https://example.com/sitemap.xml - Crawl-delay — задержка между запросами (поддерживается Яндексом, игнорируется Google).
- Host — основное зеркало сайта (устаревшая директива Яндекса, но ещё работает).
Правила приоритета
Если URL подходит под несколько правил, Google выбирает наиболее специфичное (длинное). Яндекс действует аналогично, но с нюансами. Порядок строк в файле значения не имеет — важна длина и точность пути.
Robots.txt для WordPress
Базовая настройка
WordPress генерирует виртуальный robots.txt автоматически. Но для полного контроля лучше создать физический файл. Рекомендуемая базовая конфигурация:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?*utm
Disallow: /*?*fbclid
Sitemap: https://example.com/sitemap_index.xml
Что закрывать от индексации
- Служебные разделы — wp-admin, wp-includes (кроме ajax).
- Страницы поиска — генерируют бесконечное число URL.
- Фильтрация и сортировка — параметры ?sort=, ?filter= создают дубли.
- UTM-метки — каждая UTM-ссылка = новый URL для робота.
- Корзина и личный кабинет — нет смысла индексировать.
- Пагинация тегов и архивов — если они не несут SEO-ценности.
Что НЕ закрывать
- CSS и JS файлы — Google нужны для рендеринга страницы. Закрытие стилей мешает оценке мобильной адаптации.
- Изображения — они могут приносить трафик из Google Images.
- Файл sitemap.xml — он должен быть доступен всегда.
Настройка для мультиязычных сайтов
Если сайт имеет языковые версии на поддоменах (en.example.com, de.example.com), каждый поддомен должен иметь свой robots.txt. Для версий в подпапках (/en/, /de/) достаточно одного файла в корне.
Robots.txt и мета-тег robots
Не путайте robots.txt с мета-тегом robots в HTML. Мета-тег управляет индексацией конкретной страницы (noindex, nofollow), а robots.txt — сканированием. Парадокс: если закрыть страницу в robots.txt, робот не увидит мета-тег noindex, и страница может остаться в индексе! Для надёжного удаления из индекса используйте мета-тег noindex, а не Disallow.
Проверка robots.txt
- Google Search Console — инструмент проверки robots.txt показывает, заблокирован ли конкретный URL.
- Яндекс.Вебмастер — Инструменты, Анализ robots.txt — аналогичная проверка.
- Screaming Frog — при краулинге показывает страницы, заблокированные robots.txt.
Частые ошибки
- Disallow: / — закрывает весь сайт. Убедитесь, что это не осталось после разработки.
- Пустой Disallow —
Disallow:(без пути) означает «ничего не запрещено», а не «всё запрещено». - Закрытие CSS/JS — мешает рендерингу, ухудшает оценку страницы.
- Забытый Sitemap — всегда указывайте ссылку на sitemap.xml.
- Различия в регистре — URL чувствительны к регистру. /Admin/ и /admin/ — разные пути.
Если вы не уверены в настройках robots.txt — закажите SEO-аудит у нашей команды. Мы проверим все технические аспекты и дадим рекомендации. Связаться с нами.
Где должен находиться файл robots.txt?
Строго в корне домена: https://example.com/robots.txt. Файл в подпапке не будет распознан поисковыми роботами. Для поддоменов нужен отдельный файл в корне каждого поддомена.
Можно ли через robots.txt запретить индексацию страницы?
Нет. Robots.txt запрещает сканирование, но не индексацию. Если на страницу ссылаются другие сайты, она может попасть в индекс даже с Disallow. Для запрета индексации используйте мета-тег noindex или HTTP-заголовок X-Robots-Tag.
Как быстро поисковик увидит изменения в robots.txt?
Google обычно проверяет robots.txt раз в 24 часа, но может кэшировать до нескольких дней. Для ускорения отправьте обновлённый файл через Google Search Console. Яндекс обновляет robots.txt при каждом визите робота на сайт.