Главная – Статьи – Публикации – «Для информационных сайтов доля уникального контента должна стремиться к 100%»: SEOшник рассказал, как бороться с дублями страниц и контента на сайтах

17 мая 2023 0 2623

«Для информационных сайтов доля уникального контента должна стремиться к 100%»: SEOшник рассказал, как бороться с дублями страниц и контента на сайтах

Несколько дней назад на канале SEOшника и видеоблогера Михаила Шакина появилась запись вебинара с участием его коллеги Айрата Рахимзянова, SEOшника с 12-летним опытом и автора ТГ-канала Seosekretiki, в котором участники рассмотрели одну из важнейших проблем для владельцев сайтов и интернет-магазинов — дубли страниц. Айрат поделился своим опытом борьбы с дублированными страницами, а мы транскрибировали самые важные моменты из вебинара.

Что такое дубли страниц?

Дублированные страницы — это копии определенных страниц вашего сайта внутри него же, которые полностью или большей частью идентичны оригинальным, хоть и имеют другой URL.

На первый взгляд может показаться, что если такие страницы не мешают работе сайта, то и трогать их не нужно, но это не так, с ними надо бороться. Зачем? Во-первых, они забирают на себя часть ресурсов поисковых систем, которые те тратят на обход вашего сайта. Во-вторых, поисковые системы могут вывести в топ выдачи ненужный вам дубль, а не целевую страницу.

Кроме технических дублей, о которых шла речь выше, есть еще и контентные. Они появляются на некоторых или всех страницах сайта и негативно влияют на релевантность страницы. Таким образом, борьба с дублями не только помогает сэкономить ресурсы поисковиков (краулинговый бюджет), которые они тратят на ваш сайт, но и не занижать в ранжировании страницы.

Классическая схема работы с дублями

По словам Айрата, вся схема работы с дублями сводится к тому, что их нужно сначала найти, а потом удалить или закрыть при помощи директив в robots.txt.

Как утверждает спикер, практически никогда не бывает так, что сайт совсем не имеет дублей. Даже самый лучший в плане внутренней оптимизации проект может иметь какое-то минимальное количество дублирующих страниц или блоков текста. Поэтому он предлагает реагировать на технические дубли только в том случае, когда на сайте их аномально большое количество (от 10%). Также это нужно, когда текстовые блоки с дублирующим контентом занимают довольно большой объем к остальному размеру страницы.

Как найти дубликаты страниц

Первым и самым популярным инструментом для поиска дублей на сайтах является широко известная в SEOшных кругах программа Screaming Frog. Грамотная настройка и последующий парсинг помогут найти все технические дубли страниц вашего проекта.

На скриншоте ниже Айрат показал, как выглядит отчет по дублированным страницам на одном проекте его клиента:

Еще одним способом поиска дублированного контента является ручной анализ выдачи Яндекса и Google. Здесь достаточно сначала проанализировать, какой кусок текста у вас повторяется чаще всего, а потом при помощи кавычек и оператора site: искать в выдаче страницы, где есть эта часть текста.

И последний способ найти дубли страниц — это сервис для вебмастеров от Яндекса. На скрине ниже Айрат показал, по каким ссылкам в меню нужно перейти, чтобы увидеть дубли:

Как бороться с дублями страниц?

Если дублирующую страницу невозможно удалить из CMS, ее можно запретить к индексации. Это делается в файле robots.txt через директиву disallow или в самом коде страницы при помощи запрещающих тегов robots или X-Robots-Tag для файлов, например, pdf.

Во втором случае достаточно прописать код ниже в файл конфигурации .htaccess:

Вакансии

BizDev / Affiliate Manager

iGaming SEO Team

от 1 500 $

Удаленно

Специалист по развитию аккаунтов / Фармер аккаунтов

RSA Reddit

от 150 до 1 200 $

Удаленно

Business Development Manager / BizDev

Удаленно

<FilesMatch "имя файла">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Дубли контента

Что делать, если внутри вашего проекта есть шаблонный контент или часть текста дублируется блоками с одной страницы на другую? В этом случае Айрат предлагает целых три варианта решения проблемы:

Для Яндекса все так же работает заключение текста в теги  . В этом случае он просто не будет индексироваться роботами поисковой системы;
Также дубли контента можно спрятать от индексации при помощи псевдоэлементов в CSS и JavaScript. Несмотря на то, что способ древний, команда Айрата его тестировала. И в наши дни он показал свою эффективность. Правда, без специальных знаний этот вариант лучше не использовать;
Еще один способ скрыть от ПС дубли контента заключается в использовании методики SEOhide. Берется кусок кода, выносится в отдельный файл (допустим .js) и в robots.txt, прописывается запрет на сканирование этого файла. Как вариант, можно прописать запрет сразу на всю папку с js-файлами.

Как видите, ничего особенно сложного нет.

Работа с дублями get-параметров

Страница с get-параметрами — это такая страница, в адресе которой присутствует динамический параметр URL, с помощью которого можно менять ее содержание, не меняя при этом фактического адреса. Чаще всего get-параметры встречаются в страницах пагинации, сортировки или фильтрах в интернет-магазинах.

Пример такого URL-адреса ниже:

Айрат делит все дублированные страницы на get-параметрах на полезные и бесполезные. К первым он относит страницы пагинации, которые генерируются на том же Битриксе и в некоторых случаях страницы сортировок (дорого - дешево, высокий рейтинг - низкий рейтинг).

Поиск УРЛов c get-параметрами происходит теми же способами, про которые мы писали выше. В этом помогут программа Screaming Frog и сервисы для вебмастеров.

Что делать с полезными дублированными страницами? Айрат предлагает оставлять их на сервере, но менять их УРЛ на ЧПУ. На скриншоте ниже показано, как можно избавиться от дубля, сохранив функциональность сайта:

Однако перед изменением адреса страницы лучше всего будет проанализировать, приходит ли на нее трафик. Если нет, можно с чистой совестью менять УРЛ и переклеивать его через 301 редирект.

После перевода всех полезных дублей на ЧПУ Айрат рекомендует прописать в их коде самореферентные теги canonical. То есть нужно сделать так, чтобы страница ссылалась на саму себя. Как это должно выглядеть, показано на примере ниже:

<head>
<link rel="canonical" href="https://internet-magazin.com/catalog/tovar-dlya-primera/">
</head>

После того, как разобрались с полезными дублями, надо будет закрыть для индексации бесполезные. Это можно сделать при помощи директивы Clean-param в файле robots.txt. Такой метод работает для роботов Яндекса, но не для «пауков» Google.

Борьба с дублями get-параметров в Google

Чтобы поисковик Google не индексировал ненужные УРЛы, содержащие GET-параметры, Айрат предлагает прописывать в коде каждой такой страницы метатег robots, который будет запрещать ее индексацию. Пример такого метатега ниже:

<meta name="robots" content="noindex, follow">

Таким образом, используя директиву Clean-Param для Яндекса и метатег robots для Google, можно запретить индексацию каждой отдельной страницы с get-параметрами, которую вы посчитали ненужной.

Вопросы и ответы

Во второй части вебинара Михаил предложил Айрату ответить на несколько вопросов, которые возникли у зрителей во время прямого эфира.

Как действовать, если один товар размножается на многие категории и подкатегории?

Самый простой выход из этой ситуации — привязывать один товар к своей категории так, чтобы у него был только один УРЛ, который не будет меняться в зависимости от категории. Как пример, http://internet-magazin.com/product/id334567.html. Если так сделать не получится, тогда «переклеивать» тегами canonical с дублей на главную.

Мы делаем в магазине каждый вариант товара на отдельной странице, поскольку в Яндекс.Товары вариативные не показываются. Что делать, чтобы Яндекс их дублями не считал?

Как минимум прописать теги canonical на каноничные страницы.

Товар в разных категориях. Canonical настроен, но часто игнорируется поисковиками. Что еще можно сделать?

Несмотря на то, что Яндекс часто игнорит тег canonical, все же лучше сводить все к одному УРЛ для одного товара, как это было описано выше. Не во всех CMS такое можно сделать, но на Битрикс это довольно легко реализуется.

Какой процент неуникального контента на страницах допустим в зависимости от объема страницы?

Все зависит от поисковой системы и типа страницы. Если это товар в интернет-магазине и ПС Яндекс, лучше сделать минимум 50% уникального контента на странице. Для информационных сайтов доля уникального контента должна стремиться к 100%.

Что делаем с выпадающим меню в интернет-магазинах? Закрываем от индексации? Или все же это не является неуникальным контентом?

Если это только одно меню на странице, ничего страшного. Если же оно дублируется еще где-то на странице или дополнительно прописано адаптивное под смартфоны, которое занимает большой объем кода, тогда лучше провести рефакторинг при помощи программиста или закрыть его от индексации.

Отрабатывает ли схема canonical + clean param для страниц с get-параметрами?

Да, отрабатывает.

Как работать со страницами пагинации, которые плодят дубли?

Как уже было сказано выше, меняем адреса на ЧПУ, но перед этим смотрим статистику и анализируем, есть ли на эти страницы трафик. Если нет, можно смело менять адреса, которые рекомендуется открыть для индексации. На этих же страницах пагинации надо будет добавить уникальные title, description и h1 и сбить релевантность, убрав текстовое описание, но оставив его только на странице категории. Таким образом, страницы с дублированным контентом не будут конкурировать в поиске со страницей категории.

Небольшой совет от Айрата: в Яндексе один из самых сильных коммерческих факторов — это количество товара в интернет-магазине. Поэтому ПС будет отдавать предпочтение тем сайтам, где в листинге товаров больше, чем у конкурентов.

У нас Яндекс постоянно сканирует корзины, и никакие запреты не помогают.

Это очень часто связано с разрешением на сканирование в панели вебмастера, где есть пункт «Разрешить обход роботом через счетчик Метрики». Соответственно, если на сайте установлена Яндекс Метрика, страницы корзины будут попадать в индекс хотя бы потому, что на них установлен код Метрики. Если не помогают директивы в robots.txt, надо просто выключить функцию обхода роботом через счетчик.

Стоит плагин All in One SEO, и в нем прописать Clean param нельзя, как быть?

Вручную отредактировать файл через FTP, прописав в нем Clean param для всех нужных страниц.

Как быть с canonical на страницах пагинации? Ставить canonical на главную страницу категории?

Если в пагинации есть полезный get-параметр, его надо переводить на ЧПУ, соответственно, там будет самореферентный canonical всегда. Если же страницы остаются на get-параметрах, тогда, да, надо ставить canonical на главную страницу категории.