Джон Мюллер представил неплохие рекомендации об эффективности удаления непроиндексированных страниц в случае возникновения ошибки: «Discovered Currently Not Indexed».
Наличие страниц, которые не обходятся поисковыми роботами, может стать значительной проблемой даже для крупных проектов. При этом среди вебмастеров нет чёткого мнения на счёт эффективности их банального удаления.
Джон раскрывает некоторые подробности работы автоматизированных алгоритмов, отвечающих за индексацию контента.
Рекомендация месяца: Нетология – образовательная платформа для обучения современным востребованным профессиям по направлениям: Маркетинг, Бизнес и управление, Дизайн и UX, Программирование, Аналитика и Data Science, EdTech, B2B. За 10 лет работы они выпустили более 60,000 специалистов.
Для отслеживания проблем, возникающих на страницах сайта и связанных с уровнем видимости в органической выдаче, у поисковой системы Google существует специализированный инструмент – Search Console.
Статус индексации является одним из наиболее значительных показателей в отчётах инструмента. Потому что он отражает текущую ситуацию: сколько страниц находится в индексе и приносит трафик, а какая часть просто лежит в базе данных сайта и никак не влияет на вашу видимость в поиске.
В большинстве случаев, каждое сообщение Search Console о том, что была обнаружена не проиндексированная страница, является серьёзным поводом для принятия экстренных мер. Но причин, по которым страница не краулится поисковыми ботами, может быть множество. И это при том, что официальная документация Google включает лишь одну:
Страница просканирована, но пока не проиндексирована
Это сообщение означает, что мы просканировали страницу, но пока не добавили её в индекс Google. В дальнейшем она может быть проиндексирована, а может и остаться в текущем состоянии; заново отправлять запрос на сканирование этого URL не нужно.
Поэтому отчёт о последнем сканировании содержит пустую графу с датой. Google обнаружил недостаточность мощности выбранного сервера и отложил работу с сайтом на некоторое время, предоставляя вам возможность поработать над доступностью ресурса.
Но Мюллер не ограничивается столь однобоким взглядом на возникающие проблемы:
Теория о том, что удаление некоторых страниц может привести к улучшению показателей сканирования сайта в целом, получила широкое распространение в узких профессиональных кругах вебмастеров.
Многие специалисты со стажем непременно вспомнят и про, так называемый, краулинговый бюджет, который предполагает ограниченный объём сканирования при разовом посещении ботом целевого сайта. Иными словами, за раз индексацию пройдёт только определённое число страниц. Но если вы выгрузили несколько сотен материалов за неделю, то в выдачу они вполне могут попасть с задержкой, длительность которой будет зависеть от частоты сканирования.
Официальная позиция Google по этому вопросу однозначна – никакого краулингового бюджета, как понятия, у поисковика не существует. Объём просканированных страниц зависит только от технических возможностей сервера и ряда внутренних параметров, которые не разглашаются.
Кроме того, Google не в состоянии сохранить абсолютно каждую страницу Глобальной сети. Это слишком большие объёмы информации. Поэтому автоматизированным алгоритмам приходится быть разборчивыми и выбирать только подходящие для этого материалы. Как правило, индексации подвергаются страницы, обладающие определённой ценностью для пользователей.
Это весьма актуально для крупных интернет-магазинов и маркетплейсов. Если вы создаёте отдельную карточку товара под каждую его спецификацию, то в результате образуется множество клонов с практически идентичным описанием. Если объединять их в одну карточку с возможностью переключения различных параметров, таких как, например: цвет, размер, фасон и тому подобных, то количество страниц, требующих индексации, существенно сократится.
Джон Мюллер рассказал о том, что нет категоричного ответа на такой вопрос. При этом он сослался на некоторые общие рекомендации:
Уплотнение страниц сайта само по себе не приводит к улучшению его индексации. Здесь важно сказать о том, как именно оно сказывается на качестве опубликованной информации. Если качество повышается, значит уплотнение помогает улучшить впечатление поисковых ботов, а значит благотворно сказывается на скорости индексации.
Именно поэтому разработчикам рекомендуют сосредоточиться на качестве предоставляемой информации, а не на отдельных параметрах, способных повлиять на работу ботов во время сканирования. Уменьшение числа страниц само по себе не приводит к улучшению ситуации с поиском, а только снижает показатели видимости сайта.
Причиной того, что Google обнаружил страницу, но отказался её индексировать, может стать:
Количество запросов, которые в состоянии обрабатывать арендованный сервер, напрямую влияет на скорость сканирования сайта. Поисковые боты не станут загружать канал целиком, вызывая перебои с доступностью опубликованного контента.
Соответственно, крупным ресурсам уделяется более пристальное внимание и их сканированием занимается сразу несколько ботов, а значит число одновременных запросов существенно возрастает.
Следует помнить и о том, что Google не является монополистом. А значит сканирование могут одновременно проводить боты различных поисковиков, например Microsoft, Apple и других. Сотни или даже тысячи ботов, одновременно посещающих крупный сайт, способны оказать значительное влияние на возможности сервера по обработке входящих запросов.
Регулярно проверяйте журнал собственного сервера и отслеживайте пиковые нагрузки, чтобы понимать, достаточно ли текущих мощностей для обеспечения бесперебойного доступа к опубликованным материалам.
Более специализированная причина потенциальной недоиндексации сайта. Google раздаёт определённую оценку всем сайтам, которые претендуют на попадание в индекс. Если вы хотите собирать органический трафик, следует уделять пристальное внимание этому параметру.
Джон Мюллер рассказал, что даже один единственный низкокачественный раздел сайта способен в значительной степени снизить общий показатель его качества:
Оценивая качество сайта в целом, специалисты Google обращают внимание на значительные части низкокачественного контента, которые могут повлиять на общую оценку. Потому что поисковую систему, как правило, не заботят причины того, почему часть материалов оказались низкопробными. При этом на показатель качества влияет не только содержание статей, но и такие параметры, как структура макета и общий дизайн.
Мюллер также рассказал о том, что определение качества – долгосрочный процесс, который может растянуться на месяцы. Потому что технически сложные узкоспециализированные тематики требуют высокого уровня экспертизы не только от владельцев сайтов, но также и от сотрудников, которые проводят анализ.
Коммерческие проекты требуют пристального внимания к каждому элементу страницы, поэтому и поисковые системы в процессе индексации крайне придирчивы к мелочам.
Все наиболее важные разделы сайта должны быть отображены в главном меню. Это позволяет повысить юзабилити и качество пользовательского опыта. Если рассматривать более экзотические случаи, то в главном меню могут находиться ссылки на ключевые материалы ресурса.
Не забывайте связывать страницы сайта между собой через внутреннюю перелинковку. Используйте ссылки на различные материалы, тематически подходящие по контексту. Таким образом пользователи сразу будут получать всю необходимую информацию и не вернутся к поиску, чтобы ввести уточняющие запросы.
По своей сути это страницы, на которых размещено минимальное количество полезной информации. Сегодня недостаточно просто заполнить их минимальным объёмом необходимых данных. Если это страница с контактными данными, заполните её короткими превью сотрудников отдела, которые будут отвечать на запросы посетителей. Расширяйте тонкий контент, но не позволяйте себе при этом захламлять его бесполезными и не информативными блоками текста.
Недостаточно просто разложить товары по полкам в ожидании невероятного наплыва клиентов. Современный бизнес требует набора полноценного штата опытных консультантов, способных продвигать ваши предложения всем категориям потенциальных покупателей.
Интернет-ресурсы работают по такому же принципу. Опытный вебмастер в состоянии оформить страницу таким образом, чтобы поисковая система хотела её проиндексировать.
Наполняя ресурс ценностью для пользователей, вы не только продвигаете его в органической выдаче, но и помогаете собственной целевой аудитории лучше удовлетворять интент.
Сообщение Страница просканирована, но пока не проиндексирована: как это исправить появились сначала на Блог SEO-аспиранта.
В ответ на Сергей.
Google их обнаружил, но узнал, что это “не страница”, только после обнаружения. У поисковой системы в данном случае нет какого-то специального статуса для “не веб-страниц”, поэтому «Discovered Currently Not Indexed» – наиболее подходящий результат для них. Это статус “по умолчанию” для всех не проиндексированных URL.
Так что можете не переживать по этому поводу. Достаточно распространённое явление. Можно считать, что это баг GSC.
P.S. На всякий случай уточню, что это вовсе не значит, что ваши изображения не индексируются и не попадают в картиночный поиск. Чтобы в этом убедиться, вы можете посмотреть список проиндексированных картинок через оператор поиска “site:”.