Дублированный контент: как найти и устранить
Что такое дублированный контент
Дублированный контент — это идентичный или существенно похожий текст, доступный по разным URL внутри одного сайта или на разных сайтах. Поисковые системы тратят ресурсы на обработку дублей, и в результате ни одна из дублирующих страниц не получает полного потенциала ранжирования.
Борьба с дублями — стандартная задача технического SEO-аудита. По статистике, до 30% контента в интернете — дубликаты, и многие сайты имеют внутренние дубли, даже не подозревая об этом.
Типы дублированного контента
Внутренние дубли
- Технические дубли URL — одна страница доступна по разным адресам: с www и без, http и https, со слэшем и без, с параметрами сессии.
- Пагинация — страницы категорий (/page/2/, /page/3/) с повторяющимся описанием.
- Фильтрация — URL с параметрами фильтров генерируют сотни дублей.
- Печатные версии — /print/ версии страниц.
- AMP-версии — если canonical настроен некорректно.
- Контентные дубли — разные страницы с одинаковым или почти одинаковым текстом.
Внешние дубли
- Скопированный контент — другие сайты украли ваш текст.
- Описания товаров — типичная проблема интернет-магазинов, использующих описания от производителя.
- Пресс-релизы — один текст на десятках площадок.
Как найти дубли
Внутренние дубли
- Screaming Frog — отчёт Duplicate Content показывает страницы с совпадающими Title, Description, H1 и полными дублями контента.
- Google Search Console — отчёт «Покрытие», категория «Дубликат без canonical».
- Оператор site: —
site:domain.ru "фрагмент текста"покажет все страницы с этим текстом. - Serpstat / Ahrefs Site Audit — автоматический поиск дублей.
Внешние дубли
- Copyscape — проверка уникальности URL.
- Text.ru — проверка текста на уникальность (российский сервис).
- Google-поиск — вставьте фрагмент текста в кавычках.
Как устранить дублированный контент
1. Canonical тег
Укажите на дублирующей странице canonical на основную: <link rel="canonical" href="https://example.com/original-page/">. Это самый распространённый метод. Canonical — рекомендация, но Google обычно её учитывает.
2. Редирект 301
Если дублирующая страница не нужна — настройте 301 редирект на основную. Самый надёжный метод: пользователи и роботы автоматически попадают на нужную страницу.
3. Мета-тег noindex
Для страниц, которые должны быть доступны пользователям, но не нужны в индексе — добавьте noindex. Подходит для страниц фильтрации, сортировки, печатных версий.
4. Robots.txt
Закройте от сканирования URL с параметрами через robots.txt. Но помните: закрытие от сканирования не гарантирует удаление из индекса.
5. Уникализация контента
Если дубли контентные (две статьи на одну тему) — объедините их или перепишите одну из них. Это также решает проблему каннибализации запросов.
Профилактика
- Настройте редирект с www на без-www (или наоборот) и с http на https.
- Используйте trailing slash единообразно (все URL со слэшем или все без).
- Добавьте self-referencing canonical на все страницы.
- В sitemap.xml включайте только canonical-версии URL.
- Для интернет-магазинов — пишите уникальные описания товаров.
- Используйте Яндекс.Вебмастер — раздел «Оригинальные тексты» для защиты авторства.
Нужна помощь с устранением дублей? Обратитесь к нам — проведём аудит и устраним все проблемы с дублированным контентом.
Наказывает ли Google за дублированный контент?
Google не накладывает штраф за дубли в классическом смысле. Но дублированный контент ведёт к размыванию ссылочного веса, путанице в индексации и ухудшению ранжирования. Исключение — намеренный спам (массовое копирование чужого контента), за который может быть наложена ручная санкция.
Как защитить свой контент от копирования?
Используйте «Оригинальные тексты» в Яндекс.Вебмастере — отправляйте текст до публикации. Для Google — IndexNow или запрос индексации через GSC сразу после публикации. Технически предотвратить копирование невозможно, но быстрая индексация помогает поисковику определить первоисточник.
Что делать, если конкурент украл мой контент?
Сначала свяжитесь с владельцем сайта и попросите удалить или поставить canonical на ваш URL. Если не реагирует — подайте DMCA-жалобу в Google (через Search Console) и Яндекс (через Вебмастер). В серьёзных случаях — обратитесь к юристу. Обычно Google хорошо определяет первоисточник, если ваш контент проиндексирован раньше.