Несколько дней назад на канале SEOшника и видеоблогера Михаила Шакина появилась запись вебинара с участием его коллеги Айрата Рахимзянова, SEOшника с 12-летним опытом и автора ТГ-канала Seosekretiki, в котором участники рассмотрели одну из важнейших проблем для владельцев сайтов и интернет-магазинов — дубли страниц. Айрат поделился своим опытом борьбы с дублированными страницами, а мы транскрибировали самые важные моменты из вебинара.
Дублированные страницы — это копии определенных страниц вашего сайта внутри него же, которые полностью или большей частью идентичны оригинальным, хоть и имеют другой URL.
На первый взгляд может показаться, что если такие страницы не мешают работе сайта, то и трогать их не нужно, но это не так, с ними надо бороться. Зачем? Во-первых, они забирают на себя часть ресурсов поисковых систем, которые те тратят на обход вашего сайта. Во-вторых, поисковые системы могут вывести в топ выдачи ненужный вам дубль, а не целевую страницу.
Кроме технических дублей, о которых шла речь выше, есть еще и контентные. Они появляются на некоторых или всех страницах сайта и негативно влияют на релевантность страницы. Таким образом, борьба с дублями не только помогает сэкономить ресурсы поисковиков (краулинговый бюджет), которые они тратят на ваш сайт, но и не занижать в ранжировании страницы.
По словам Айрата, вся схема работы с дублями сводится к тому, что их нужно сначала найти, а потом удалить или закрыть при помощи директив в robots.txt.
Как утверждает спикер, практически никогда не бывает так, что сайт совсем не имеет дублей. Даже самый лучший в плане внутренней оптимизации проект может иметь какое-то минимальное количество дублирующих страниц или блоков текста. Поэтому он предлагает реагировать на технические дубли только в том случае, когда на сайте их аномально большое количество (от 10%). Также это нужно, когда текстовые блоки с дублирующим контентом занимают довольно большой объем к остальному размеру страницы.
Первым и самым популярным инструментом для поиска дублей на сайтах является широко известная в SEOшных кругах программа Screaming Frog. Грамотная настройка и последующий парсинг помогут найти все технические дубли страниц вашего проекта.
На скриншоте ниже Айрат показал, как выглядит отчет по дублированным страницам на одном проекте его клиента:
Еще одним способом поиска дублированного контента является ручной анализ выдачи Яндекса и Google. Здесь достаточно сначала проанализировать, какой кусок текста у вас повторяется чаще всего, а потом при помощи кавычек и оператора site: искать в выдаче страницы, где есть эта часть текста.
И последний способ найти дубли страниц — это сервис для вебмастеров от Яндекса. На скрине ниже Айрат показал, по каким ссылкам в меню нужно перейти, чтобы увидеть дубли:
Если дублирующую страницу невозможно удалить из CMS, ее можно запретить к индексации. Это делается в файле robots.txt через директиву disallow или в самом коде страницы при помощи запрещающих тегов robots или X-Robots-Tag для файлов, например, pdf.
Во втором случае достаточно прописать код ниже в файл конфигурации .htaccess:
<FilesMatch "имя файла">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
Что делать, если внутри вашего проекта есть шаблонный контент или часть текста дублируется блоками с одной страницы на другую? В этом случае Айрат предлагает целых три варианта решения проблемы:
Как видите, ничего особенно сложного нет.
Страница с get-параметрами — это такая страница, в адресе которой присутствует динамический параметр URL, с помощью которого можно менять ее содержание, не меняя при этом фактического адреса. Чаще всего get-параметры встречаются в страницах пагинации, сортировки или фильтрах в интернет-магазинах.
Пример такого URL-адреса ниже:
Айрат делит все дублированные страницы на get-параметрах на полезные и бесполезные. К первым он относит страницы пагинации, которые генерируются на том же Битриксе и в некоторых случаях страницы сортировок (дорого - дешево, высокий рейтинг - низкий рейтинг).
Поиск УРЛов c get-параметрами происходит теми же способами, про которые мы писали выше. В этом помогут программа Screaming Frog и сервисы для вебмастеров.
Что делать с полезными дублированными страницами? Айрат предлагает оставлять их на сервере, но менять их УРЛ на ЧПУ. На скриншоте ниже показано, как можно избавиться от дубля, сохранив функциональность сайта:
Однако перед изменением адреса страницы лучше всего будет проанализировать, приходит ли на нее трафик. Если нет, можно с чистой совестью менять УРЛ и переклеивать его через 301 редирект.
После перевода всех полезных дублей на ЧПУ Айрат рекомендует прописать в их коде самореферентные теги canonical. То есть нужно сделать так, чтобы страница ссылалась на саму себя. Как это должно выглядеть, показано на примере ниже:
<head>
<link rel="canonical" href="https://internet-magazin.com/catalog/tovar-dlya-primera/">
</head>
После того, как разобрались с полезными дублями, надо будет закрыть для индексации бесполезные. Это можно сделать при помощи директивы Clean-param в файле robots.txt. Такой метод работает для роботов Яндекса, но не для «пауков» Google.
Чтобы поисковик Google не индексировал ненужные УРЛы, содержащие GET-параметры, Айрат предлагает прописывать в коде каждой такой страницы метатег robots, который будет запрещать ее индексацию. Пример такого метатега ниже:
<meta name="robots" content="noindex, follow">
Таким образом, используя директиву Clean-Param для Яндекса и метатег robots для Google, можно запретить индексацию каждой отдельной страницы с get-параметрами, которую вы посчитали ненужной.
Во второй части вебинара Михаил предложил Айрату ответить на несколько вопросов, которые возникли у зрителей во время прямого эфира.
Самый простой выход из этой ситуации — привязывать один товар к своей категории так, чтобы у него был только один УРЛ, который не будет меняться в зависимости от категории. Как пример, http://internet-magazin.com/product/id334567.html. Если так сделать не получится, тогда «переклеивать» тегами canonical с дублей на главную.
Как минимум прописать теги canonical на каноничные страницы.
Несмотря на то, что Яндекс часто игнорит тег canonical, все же лучше сводить все к одному УРЛ для одного товара, как это было описано выше. Не во всех CMS такое можно сделать, но на Битрикс это довольно легко реализуется.
Все зависит от поисковой системы и типа страницы. Если это товар в интернет-магазине и ПС Яндекс, лучше сделать минимум 50% уникального контента на странице. Для информационных сайтов доля уникального контента должна стремиться к 100%.
Если это только одно меню на странице, ничего страшного. Если же оно дублируется еще где-то на странице или дополнительно прописано адаптивное под смартфоны, которое занимает большой объем кода, тогда лучше провести рефакторинг при помощи программиста или закрыть его от индексации.
Да, отрабатывает.
Как уже было сказано выше, меняем адреса на ЧПУ, но перед этим смотрим статистику и анализируем, есть ли на эти страницы трафик. Если нет, можно смело менять адреса, которые рекомендуется открыть для индексации. На этих же страницах пагинации надо будет добавить уникальные title, description и h1 и сбить релевантность, убрав текстовое описание, но оставив его только на странице категории. Таким образом, страницы с дублированным контентом не будут конкурировать в поиске со страницей категории.
Небольшой совет от Айрата: в Яндексе один из самых сильных коммерческих факторов — это количество товара в интернет-магазине. Поэтому ПС будет отдавать предпочтение тем сайтам, где в листинге товаров больше, чем у конкурентов.
Это очень часто связано с разрешением на сканирование в панели вебмастера, где есть пункт «Разрешить обход роботом через счетчик Метрики». Соответственно, если на сайте установлена Яндекс Метрика, страницы корзины будут попадать в индекс хотя бы потому, что на них установлен код Метрики. Если не помогают директивы в robots.txt, надо просто выключить функцию обхода роботом через счетчик.
Вручную отредактировать файл через FTP, прописав в нем Clean param для всех нужных страниц.
Если в пагинации есть полезный get-параметр, его надо переводить на ЧПУ, соответственно, там будет самореферентный canonical всегда. Если же страницы остаются на get-параметрах, тогда, да, надо ставить canonical на главную страницу категории.
Подписывайтесь на наш Telegram-канал по манимейкингу, где мы публикуем свежие новости и интересные кейсы из сферы SEO, IT и маркетинга!