26 сентября 2022 2058

Как проверить дубли страниц на сайте

Дубли страниц на сайте могут возникать автоматически, а могут появляться из-за человеческого фактора. В любом случае дубль негативно сказывается на ранжировании сайта. Поэтому важно на моменте разработки убедиться, что дублей нет, или настроить имеющиеся так, чтобы они не индексировались как отдельные страницы с таким же контентом. В статье рассказываем, как это сделать.

Что такое дубли страниц и какие они могут быть

Дубли страниц — это любые страницы сайта, которые по содержанию копируют другую. Например, если вы заходите на страницу товара в интернет-магазине, но выбираете иной цвет одежды, и вас перенаправляют на другую страницу. Сами урлы изменяются незначительно — у них меняется набор символов. Также изображения разные, хоть товар один и тот же, но разного цвета. Текст к товару идентичен, но он скрыт от пользователя, пока он его не откроет.

Вот так выглядит это в реальности — товар магазина Sela разных цветов:

По сути, страницы одинаковые, и они дублирующиеся. Если бы вебмастер не позаботился о сокрытии текста, изменении картинок, то тогда эти страницы были бы неявными дублями. То есть это дубли, но их отредактировали так, чтобы для роботов они выглядели уникально.

И подобных примеров много — давайте разберем самые частые из них:

  • страница доступна под разными протоколами — есть страница для https:/ и для http:/;
  • страница для www и без www — то есть пользователь попадает по этим адресам на одну страницу, но их всего две;
  • со слешем и без слеша — если к урлу добавить слеш, откроется та же самая страница, но это будет дубль;
  • один товар доступен по разным адресам — например, в одном урле есть название товара, в другом к нему добавили и название категории, но при этом открывается один и тот же товар;
  • страницы с GET-параметрами — это когда есть один вариант урла страницы, а также такая же страница по адресу типа www.что-то.ru/news?hfkznsm;
  • страницы версии для печати тоже копируют контент и доступны по тому же адресу, что и оригинал.

Это основные виды явных дублей, но они могут быть и неявными. Например, если в разделе статей вы открываете доступ к комментариям. И каждый новый комментарий или ответ на него доступен почти по такому же адресу, что и страницы со статьей, но с добавлением номера или GET-параметров.

Типичный пример — это dtf, где часто можно увидеть древовидные комментарии. Также дублями могут быть страницы одного товара, которые доступны по разным адресам. Под это подходит наш пример с одеждой в Sela — если бы не настройка вебмастера, то страницы с разными цветами товаров дублировали бы оригинал. Другой вариант — это страницы пагинации, когда перечисляют пул товаров. И каждая последующая страница немного меняет свой урл — появляется дополнение в виде порядкового номера или категории товара. Но их контент остается неизменным.

Причины появления дублей — это ошибка вебмастера, автоматическое появление в зависимости от движка, ошибки в директивах robot.txt или при настройке редиректов. Поэтому пока вы находитесь на этапе разработки сайта, важно проверить все эти причины.


Почему нужно работать с дублями страниц

Хоть и стало понятней, почему эти дубли появляются, до сих неясно, зачем от них избавляться. Давайте рассмотрим, почему дубли негативно влияют на сайт.

  1. Поисковик индексирует страницу-оригинал неправильно — предположим, что у вас два урла, которые приводят пользователя на одну страницу. Вы продвигаете один из них, и все вроде хорошо. Но потом поисковик находит дубль и индексирует его, но этот урл не продвигается, поэтому и охватов получает меньше.
  2. Индексация длится слишком долго — как правило, поисковый робот индексирует страницы сайта не так долго. Но если дублей много, индексация идет дольше — поисковик просто не успевает за определенное время добраться до вашего контента.
  3. Ограничения со стороны поисковой системы — хоть дубли не нарушают никаких правил, поисковый робот может подумать, что вы специально их создаете. Тогда органическое продвижение сайта замедляется. Это происходит, если у вас есть дубли, и вы с ними ничего не делаете.
  4. Сложности в устранении — когда с дублями не работают, со временем их число может расти. Тогда-то и придется на их устранение потратить огромное время и ресурсы.

То есть основная причина в том, что дубли проблемны, — это плохое ранжирование сайта поисковой системой.


Как выявить дубли страниц сайта

Чтобы выявить дубль страницы, необязательно вручную сидеть и искать их — это довольно энергозатратно и долго. Но такой вариант все равно присутствует, если вы знаете, как искать и не можете использовать другие способы. Если не знаете, мы на всякий случай подскажем — достаточно в поисковую строку ввести команду «site: {домен} inurl1: {часть урла}». Вместо части урла нужно указать тот, по которому, вероятно, есть дубль. Например, если это GET-параметры, то можно попробовать ввести знак вопроса — именно по такой логике создаются урлы GET-параметров. Или введите слово page и номер — подойдет для поиска страниц пагинации.

Как Построить Самую Успешную Беттинг Команду в Арбитраже [Betoholic x Partnerkin x Gorgona]

Есть вероятность, что вы просто не введете нужную часть урла. То есть дубль создается нетипичный — это будет просто набор рандомных цифр или слов. В этих ситуациях можно использовать другие способы поиска дублей — всего их три.

Через Яндекс.Вебмастер. Обычно в первую очередь дубли находит именно поисковый робот, и он может об этом сообщить. Достаточно зайти в Яндекс.Вебмастер и пройти в раздел диагностики сайта. Всю информацию по ошибкам система загрузит в раздел Индексирования, «Страницы в поиске»  — чтобы вся информация была перед глазами во время работы, можно загрузить таблицу с урлами в формате XLS или CSV.

Google Search Console. В вебмастере Google тоже можно искать дубли — это необходимо, ведь та информация, что вы нашли в Яндекс.Вебмастере касается только поисковика Яндекса. Чтобы узнать о дублях, которые отображаются в Google, нужна Google Search Console — просто зайдите в раздел «Вид в поиске» и потом «Оптимизация HTML». Там и покажут все дубли страниц по заголовкам и мета-описаниям, а также битые ссылки.

Использовать парсеры или программы. Можно автоматизировать процесс поиска — даже если вы загружаете таблицу через Вебмастер, искать-то придется все равно вручную, хоть и в списке. Поэтому можно использовать различные парсеры и программы, которые полностью автоматизируют процесс.

PromoPult — позволяет анализировать все данные урлов из Вебмастера. Мы уже сказали, что придется самостоятельно идти по списку таблицы и проверять дубли. Чтобы этого не делать, можно загрузить готовую таблицу в PromoPult и начать поиск дублей. Также сервис позволяет проанализировать данные не только из Яндекса, но из Google — это поможет понять, какие урлы дублируются и в каких поисковых системах. Так легче и подобрать сам способ настройки этих страниц. Кроме того, на сервисе можно и заказать услугу по аудиту сайта от специалистов — они сами подобьют информацию по дублям и в целом по оптимизации.

Apollon — это полноценный онлайн-парсер, который быстро и бесплатно найдет все дублированные страницы. Можно выгрузить таблицу с Вебмастера, скопировать до пяти ссылок оттуда и вставить в поле на сайте. После обработки запроса перед вами откроется таблица со страницами и адресами. Если адрес один и тот же, то вы нашли дубль — осталось решить, что с ним делать.

Seoto — сервис находит все ошибки, которые мешают продвижению сайта. В их числе не только дубли страниц, но и поиск всех битых ссылок, анализ структуры на всех страницах сайта, расчет веса страниц, а также анализ данных из Вебмастера. То есть платформа дает пул инструментов, которые смогут решить ваши проблемы с оптимизацией и улучшить сайт визуально и технически.

Siteliner — бесплатный онлайн-сервис, который помогает найти быстро все битые ссылки и дублированные страницы. Но есть ограничение — бесплатно только до 250 страниц.

ScreamingFrog — это программа для компьютера, которая является частично бесплатно. Некоторые про-функции нужно оплачивать. Принцип работы программы простой — достаточно вбить нужный сайт и начать его анализ. Если ваш сайт действительно большой или у вас несколько сайтов, то понадобится про-версия — утилита может сканировать бесплатно только до 500 ссылок.

Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS! К заливам!

Xenu — это полностью бесплатная программа, причем она анализирует сайты, которые Яндекс еще не проиндексировал. Даже если создать сайт и сразу же проверить его через программу, она все равно соберет все ошибки и дубли страниц — то есть не нужны данные из инструментов вебмастеров. Весь поиск дублей происходит через мета-описания и заголовки страниц.


Как избавиться от неявных и явных дублей

Мы выяснили, как можно обнаружить все дубли страниц. Теперь давайте разбираться, что с ними делать. Скажем сразу — это зависит от вида вашего дубля.

Если проблема возникла из-за наличия или отсутствия слешей в урле. В этом случае можно настроить редирект 301 — он будет перенаправлять юзеров с дубля на целевую страницу.  Стандартную команду нужно добавить в файл .htaccess — в ней будет такое содержание:

Redirect 301 /урл, с которого идет перенаправление

http://доменное имя/новый урл, на который нужно перенаправить

Если нужно сделать редирект с домена без WWW на домен с WWW. Для этого также используют редирект 301 — только нужно ввести следующую команду для протокола http:

RewriteCond %{HTTP_HOST} ^домен\.ru$ [NC]

RewriteRule ^(.*)$ http://домен.ru/$1

[R=301, L]

Для протокола https используется другая команда:

RewriteCond %{SERVER_PORT} ^80$ [OR]

RewriteCond %{HTTP} =on

RewriteRule ^(.*)$ http://домен.ru/$1

[R=301, L]

Запрет на индексацию дублей в файле robot.txt. Способ самый простой — нужно просто запретить индексирование страницы-дубля для поискового робота, чтобы он игнорировал адрес. Для этого в файл нужно добавить следующее содержание:

User-agent: __

Disallow: /ваш урл, который не нужно индексировать

Если у вас несколько страниц с товарами, то есть страницы пагинации. В таком случае можно в коде обозначить каноническую страницу — то есть «материнскую». Для этого в коде канонической страницы вбиваем в теге & It;link& + rel=canonical href=href=”адрес канонической страницы”>адрес канонической страницы/&gt. Теперь все дочерние страницы будут ссылаться на каноническую — они не будут считаться дублями.

Чтобы не индексировать страницу и не переходить/переходить по ссылкам. Для этой команды можно ввести специальный мета-тег на страницу-дубль. Если ввести мета-тег & It;meta name=robots content=noindex, nofollow& qt, тогда робот не будет индексировать страницу и допускать переход по ссылкам на нее. Если ввести мета-тег & It;meta name=robots content=noindex, follow& qt, то страница не будет индексироваться, однако перейти на нее будет возможность.


О чем важно помнить после всех настроек и проверок

Если вы исправили проблему с дублями, и кажется, что все хорошо — все равно убедитесь в этом. Хорошо, если вы специалист и можете самостоятельно выявлять проблемы с оптимизацией. Тогда достаточно сделать повторную проверку сайта.

Но если вы еще новичок или просто делали сайт по заказу, и сейчас вам необходима профессиональная помощь, то проще всего прогнать сайт через сервисы и программы проверок и анализа. В других случаях — можно заказать аудит от специалиста. В этом больше преимуществ, ведь вебмастер сможет полностью и точно проанализировать настройки и оптимизацию, а также исправить проблемы.

Главное правило — проверять эти данные регулярно, ведь может быть так, что движок сам будет создавать дубли страниц, а вы о них даже не узнаете. Зато пропадет органический трафик.


Какие еще могут быть проблемы с технической оптимизацией сайта

 

Дубли влияют на ранжирование сайта, но они — не единственная возможная проблема. Мы разберем еще несколько ошибок, которые могут влиять на продвижение в поисковике:

  1. Отсутствие файла robot.txt — это частая проблема среди новичков. Если у сайта нет этого файла, то возникают проблемы с индексацией — поисковый робот просто не видит этого файла и проверяет все страницы подряд, в том числе и служебные. Поэтому важно проверить наличие этого файла — просто введите в поисковую строку домен/robot.txt. Если страница открылась, то файл в наличии.
  2. Нет страницы 404 — это страница, которая всплывает у пользователя при проблемах с вводом домена. Смысл этой страницы в том, что она перенаправляет пользователя на каноническую. Так трафик теряется меньше. Если страницы ошибки нет, то пользователь может просто покинуть ресурс.

  1. Отсутствие микроразметки — эта деталь необязательна, но она вызывает больше доверия у робота. Кроме того, это позволяет делать прикольные сниппеты в соцсетях, а также органично смотреться в поиске. Например, для многих рецептов делают микроразметки — при их поиске робот выбивает микроразметку с началом рецепта в отдельный блок, что привлекает внимание пользователей лучше.
  2. Проблемы с прогрузкой сайта — не секрет, что сайты иногда получаются очень тяжелыми. Из-за габаритности они дольше грузятся и могут погружаться некорректно. Лучше заранее это проверить через сервисы вроде Google Pagespeed Insights и увеличить скорость.
  3. Отсутствие протокола HTTPS — большинство пользователей уверены, что этот протокол равно безопасный сайт. Поэтому можно потерять часть трафика, если его не добавить — в браузерной строке просто не будет пометки безопасности, и пользователи могут отсеяться.

Вывод

Дубли страниц — не критично, но важно о них позаботиться, чтобы с ранжированием не было проблем. Для поиска дублей можно использовать различные сервисы и программы — о них рассказали в статье. Способы решения проблемы зависят от того, что это за дубль, — иногда достаточно настроить редирект, но в других случаях лучше просто запретить роботу считывать и индексировать страницу. После решения проблемы с дублями страниц проверяйте их появление регулярно, а также заботьтесь в целом о качестве оптимизации. Помочь в этом также может и опытный профессионал, которого можно найти через наш раздел с резюме для долгосрочного сотрудничества.

А вам приходилось работать с дублями?
0 голосов

 

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.

Партнеркин рекомендует
Партнерки
1win Partners
Топовая беттинг и гемблинг партнерка
TRAFORCE
Дейтинговая СPA-сеть
Affiliate Top
Надежная партнерка по бинарным опционам
Сервисы
Dolphin{anty}
Лучший антидетект браузер
PARTNERKIN
20%
FlexСard
Виртуальные карты для арбитража трафика
PARTNERKIN
Карты free
AdPlexity
Мониторинг мобильной, десктоп и нативной рекламы
partnerkin_m
25%

Trust RDP: аренда FB-акков