Дубли страниц на сайте могут возникать автоматически, а могут появляться из-за человеческого фактора. В любом случае дубль негативно сказывается на ранжировании сайта. Поэтому важно на моменте разработки убедиться, что дублей нет, или настроить имеющиеся так, чтобы они не индексировались как отдельные страницы с таким же контентом. В статье рассказываем, как это сделать.
Если вы работаете с сайтами в арбитраже трафика — запускаете лендинги, прокладки или масштабируете сетки, — подобные технические нюансы напрямую влияют на ROI. В нашем Telegram-канале по арбитражу трафика мы регулярно разбираем такие моменты: от SEO-ошибок и технических правок до кейсов по заливу и оптимизации связок. Подписывайтесь, если важно не терять трафик и деньги на мелочах.
Дубли страниц — это любые страницы сайта, которые по содержанию копируют другую. Например, если вы заходите на страницу товара в интернет-магазине, но выбираете иной цвет одежды, и вас перенаправляют на другую страницу. Сами урлы изменяются незначительно — у них меняется набор символов. Также изображения разные, хоть товар один и тот же, но разного цвета. Текст к товару идентичен, но он скрыт от пользователя, пока он его не откроет.
Вот так выглядит это в реальности — товар магазина Sela разных цветов:

По сути, страницы одинаковые, и они дублирующиеся. Если бы вебмастер не позаботился о сокрытии текста, изменении картинок, то тогда эти страницы были бы неявными дублями. То есть это дубли, но их отредактировали так, чтобы для роботов они выглядели уникально.
Если нужно быстро уникализировать контент подобных страницах, когда дубли делаются намеренно, иногда применяют ИИ-сервисы для генерации и переработки текста — они помогают оперативно переписать описания без ручной правки. А чтобы убедиться, что обновленный контент действительно уникален и не создает новых проблем с дублями, удобно дополнительно проверить его через сервисы проверки уникальности.
И подобных примеров много — давайте разберем самые частые из них:
Это основные виды явных дублей, но они могут быть и неявными. Например, если в разделе статей вы открываете доступ к комментариям. И каждый новый комментарий или ответ на него доступен почти по такому же адресу, что и страницы со статьей, но с добавлением номера или GET-параметров.

Типичный пример — это dtf, где часто можно увидеть древовидные комментарии. Также дублями могут быть страницы одного товара, которые доступны по разным адресам. Под это подходит наш пример с одеждой в Sela — если бы не настройка вебмастера, то страницы с разными цветами товаров дублировали бы оригинал. Другой вариант — это страницы пагинации, когда перечисляют пул товаров. И каждая последующая страница немного меняет свой урл — появляется дополнение в виде порядкового номера или категории товара. Но их контент остается неизменным.
Причины появления дублей — это ошибка вебмастера, автоматическое появление в зависимости от движка, ошибки в директивах robot.txt или при настройке редиректов. Поэтому пока вы находитесь на этапе разработки сайта, важно проверить все эти причины.
Хоть и стало понятней, почему эти дубли появляются, до сих неясно, зачем от них избавляться. Давайте рассмотрим, почему дубли негативно влияют на сайт.
То есть основная причина в том, что дубли проблемны, — это плохое ранжирование сайта поисковой системой.
Если вы уже сталкиваетесь с проблемами в поисковой выдаче, имеет смысл начать с оптимизации контента на страницах. Для этого используют сервисы SEO-анализа текста — они помогают выявить слабые места, избыточные повторы и понять, что именно мешает странице нормально ранжироваться.
Чтобы выявить дубль страницы, необязательно вручную сидеть и искать их — это довольно энергозатратно и долго. Но такой вариант все равно присутствует, если вы знаете, как искать и не можете использовать другие способы. Если не знаете, мы на всякий случай подскажем — достаточно в поисковую строку ввести команду «site: {домен} inurl1: {часть урла}». Вместо части урла нужно указать тот, по которому, вероятно, есть дубль. Например, если это GET-параметры, то можно попробовать ввести знак вопроса — именно по такой логике создаются урлы GET-параметров. Или введите слово page и номер — подойдет для поиска страниц пагинации.

Есть вероятность, что вы просто не введете нужную часть урла. То есть дубль создается нетипичный — это будет просто набор рандомных цифр или слов. В этих ситуациях можно использовать другие способы поиска дублей — всего их три.
Через Яндекс.Вебмастер. Обычно в первую очередь дубли находит именно поисковый робот, и он может об этом сообщить. Достаточно зайти в Яндекс.Вебмастер и пройти в раздел диагностики сайта. Всю информацию по ошибкам система загрузит в раздел Индексирования, «Страницы в поиске» — чтобы вся информация была перед глазами во время работы, можно загрузить таблицу с урлами в формате XLS или CSV.


Google Search Console. В вебмастере Google тоже можно искать дубли — это необходимо, ведь та информация, что вы нашли в Яндекс.Вебмастере касается только поисковика Яндекса. Чтобы узнать о дублях, которые отображаются в Google, нужна Google Search Console — просто зайдите в раздел «Вид в поиске» и потом «Оптимизация HTML». Там и покажут все дубли страниц по заголовкам и мета-описаниям, а также битые ссылки.
Использовать парсеры или программы. Можно автоматизировать процесс поиска — даже если вы загружаете таблицу через Вебмастер, искать-то придется все равно вручную, хоть и в списке. Поэтому можно использовать различные парсеры и программы, которые полностью автоматизируют процесс.
PromoPult — позволяет анализировать все данные урлов из Вебмастера. Мы уже сказали, что придется самостоятельно идти по списку таблицы и проверять дубли. Чтобы этого не делать, можно загрузить готовую таблицу в PromoPult и начать поиск дублей. Также сервис позволяет проанализировать данные не только из Яндекса, но из Google — это поможет понять, какие урлы дублируются и в каких поисковых системах. Так легче и подобрать сам способ настройки этих страниц. Кроме того, на сервисе можно и заказать услугу по аудиту сайта от специалистов — они сами подобьют информацию по дублям и в целом по оптимизации.

Apollon — это полноценный онлайн-парсер, который быстро и бесплатно найдет все дублированные страницы. Можно выгрузить таблицу с Вебмастера, скопировать до пяти ссылок оттуда и вставить в поле на сайте. После обработки запроса перед вами откроется таблица со страницами и адресами. Если адрес один и тот же, то вы нашли дубль — осталось решить, что с ним делать.

Seoto — сервис находит все ошибки, которые мешают продвижению сайта. В их числе не только дубли страниц, но и поиск всех битых ссылок, анализ структуры на всех страницах сайта, расчет веса страниц, а также анализ данных из Вебмастера. То есть платформа дает пул инструментов, которые смогут решить ваши проблемы с оптимизацией и улучшить сайт визуально и технически.
Бери в работу по высоким стартовым ставкам BY, KZ, RU, IT, ES, PL, AT, DE, CH, IN, CA. Будь первым и зарабатывай с Fonbet Partners!
Продолжить
Siteliner — бесплатный онлайн-сервис, который помогает найти быстро все битые ссылки и дублированные страницы. Но есть ограничение — бесплатно только до 250 страниц.

ScreamingFrog — это программа для компьютера, которая является частично бесплатно. Некоторые про-функции нужно оплачивать. Принцип работы программы простой — достаточно вбить нужный сайт и начать его анализ. Если ваш сайт действительно большой или у вас несколько сайтов, то понадобится про-версия — утилита может сканировать бесплатно только до 500 ссылок.

Xenu — это полностью бесплатная программа, причем она анализирует сайты, которые Яндекс еще не проиндексировал. Даже если создать сайт и сразу же проверить его через программу, она все равно соберет все ошибки и дубли страниц — то есть не нужны данные из инструментов вебмастеров. Весь поиск дублей происходит через мета-описания и заголовки страниц.

Мы выяснили, как можно обнаружить все дубли страниц. Теперь давайте разбираться, что с ними делать. Скажем сразу — это зависит от вида вашего дубля.

Если проблема возникла из-за наличия или отсутствия слешей в урле. В этом случае можно настроить редирект 301 — он будет перенаправлять юзеров с дубля на целевую страницу. Стандартную команду нужно добавить в файл .htaccess — в ней будет такое содержание:
Redirect 301 /урл, с которого идет перенаправление
http://доменное имя/новый урл, на который нужно перенаправить
Если нужно сделать редирект с домена без WWW на домен с WWW. Для этого также используют редирект 301 — только нужно ввести следующую команду для протокола http:
RewriteCond %{HTTP_HOST} ^домен\.ru$ [NC]
RewriteRule ^(.*)$ http://домен.ru/$1
[R=301, L]
Для протокола https используется другая команда:
RewriteCond %{SERVER_PORT} ^80$ [OR]
RewriteCond %{HTTP} =on
RewriteRule ^(.*)$ http://домен.ru/$1
[R=301, L]
Запрет на индексацию дублей в файле robot.txt. Способ самый простой — нужно просто запретить индексирование страницы-дубля для поискового робота, чтобы он игнорировал адрес. Для этого в файл нужно добавить следующее содержание:
User-agent: __
Disallow: /ваш урл, который не нужно индексировать
Если у вас несколько страниц с товарами, то есть страницы пагинации. В таком случае можно в коде обозначить каноническую страницу — то есть «материнскую». Для этого в коде канонической страницы вбиваем в теге & It;link& + rel=canonical href=href=”адрес канонической страницы”>адрес канонической страницы/>. Теперь все дочерние страницы будут ссылаться на каноническую — они не будут считаться дублями.
Чтобы не индексировать страницу и не переходить/переходить по ссылкам. Для этой команды можно ввести специальный мета-тег на страницу-дубль. Если ввести мета-тег & It;meta name=robots content=noindex, nofollow& qt, тогда робот не будет индексировать страницу и допускать переход по ссылкам на нее. Если ввести мета-тег & It;meta name=robots content=noindex, follow& qt, то страница не будет индексироваться, однако перейти на нее будет возможность.
Если вы исправили проблему с дублями, и кажется, что все хорошо — все равно убедитесь в этом. Хорошо, если вы специалист и можете самостоятельно выявлять проблемы с оптимизацией. Тогда достаточно сделать повторную проверку сайта.

Но если вы еще новичок или просто делали сайт по заказу, и сейчас вам необходима профессиональная помощь, то проще всего прогнать сайт через сервисы и программы проверок и анализа. В других случаях — можно заказать аудит от специалиста. В этом больше преимуществ, ведь вебмастер сможет полностью и точно проанализировать настройки и оптимизацию, а также исправить проблемы.
Главное правило — проверять эти данные регулярно, ведь может быть так, что движок сам будет создавать дубли страниц, а вы о них даже не узнаете. Зато пропадет органический трафик.
Дубли влияют на ранжирование сайта, но они — не единственная возможная проблема. Мы разберем еще несколько ошибок, которые могут влиять на продвижение в поисковике:

Вывод
Дубли страниц — не критично, но важно о них позаботиться, чтобы с ранжированием не было проблем. Для поиска дублей можно использовать различные сервисы и программы — о них рассказали в статье. Способы решения проблемы зависят от того, что это за дубль, — иногда достаточно настроить редирект, но в других случаях лучше просто запретить роботу считывать и индексировать страницу. После решения проблемы с дублями страниц проверяйте их появление регулярно, а также заботьтесь в целом о качестве оптимизации. Помочь в этом также может и опытный профессионал, которого можно найти через наш раздел с резюме для долгосрочного сотрудничества.