25 декабря 2022 0 2437

Как определить и оптимизировать бюджеты сканирования поисковых систем (краулинговые бюджеты) — рассказывают seo-эксперты

Михаил Шакин на своем YouTube-канале провел вебинар по бюджетам сканирования поисковых систем и определении точек роста сайта. Кроме самого Михаила, в вебинаре приняли участие его коллеги-seoшники: Михаил Пивоваров и DrMax, которые обсудили, как определить и оптимизировать бюджет сканирования Google, а также ответили на вопросы зрителей прямой трансляции.

Что такое бюджет сканирования?

В начале вебинара DrMax объяснил, что бюджет сканирования (краулинга) — это объем запросов, которые выделяет Google для того, чтобы пересканировать страницы сайта. При этом надо четко различать то, что сканирование — это не индексация страниц, и тот факт, что страницы, которые были просканированы, могут и не попасть потом в индекс.

Как узнать краулинговый бюджет?

Краулинговый бюджет можно узнать разными способами, одним из которых является соответствующий отчет в Google Search Console (Настройки > Сканирование > Ссылка «Открыть отчет»).

После открытия, вам будет доступно несколько обработанных поисковой системой параметров вашего сайта, напрямую связанных с бюджетом сканирования. На скриншоте ниже видна часть такого отчета:

«Вот, в данном случае всего 86% 200-х ответов. Соответственно, 14% бюджета сканирования у вас прожирается совершенно бесполезно», — прокомментировал DrMax:

По мнению DrMax, особое внимание в этом отчете стоит обратить на количество ошибок 5хх, ведь чем таких ошибок больше, тем автоматически меньше становится бюджет сканирования.

Сводный отчет о статусе хоста можно увидеть по адресу Статистика сканирования > Статус хоста. Выглядит он так:

Кроме ответов сервера, на бюджет сканирования также влияет и оптимизация мобильной версии сайта. Google учитывает качество версии для смартфонов и если там есть ошибки в верстке и кодинге, делающие ее неюзабельной, он обязательно порежет ваш бюджет сканирования.

Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS! К заливам!

Еще один инструмент для получения отчетов о показателях сканирования вашего сайта — это широкоизвестная в seoшных кругах программа «Screaming Frog».

С ее помощью можно узнать, сколько страниц вашего сайта проиндексировано, просканировано, и о каком их количестве Google просто в курсе. Также она покажет, через какое количество дней «паук» поисковой системы наведывается на каждую группу страниц. Как пример, DrMax привел отчет из этой программы для одного сайта:

ВАЖНО! Этот способ работает только при подключении к Screaming Frog API из Search Console.

По опыту DrMax, те сайты-миллионники, которые он анализировал, очень медленно переиндексируются — доходит до того, что на это требуется полтора года. Таким образом, чтобы переиндексация проходила быстрее, надо что-то делать с бюджетом сканирования, а что именно, мы расскажем ниже.

Как работать с бюджетом сканирования?

Google на днях обновил документацию, в которой есть простые и понятные советы, как улучшить показатель бюджета сканирования вашего сайта. Ниже мы по пунктам расскажем про каждый из них:

  • Удалите дублированный контент. Речь идет именно об удалении дублей, а не прописывании атрибута rel="canonical" на каноничную страницу;
  • Заблокируйте сканирование URL-адресов с помощью robots.txt. Как известно многим seoшникам, несмотря на инструкции, прописанные в этом файле, Google все равно умудряется сканировать и включать в выдачу некоторые страницы, которых там быть не должно. Тем не менее, для закрытия URL от индексации используйте robots.txt. Если же закрыть сканирование страницы путем добавления в нее метатега «noindex», Google все равно будет ее сканировать, что негативно скажется на краулинговом бюджете;
  • Устраните soft 404 ошибки. Этот пункт — больное место множества интернет-магазинов, и появляется в том случае, когда на странице отображается информация, что определенный товар отсутствует на складе. Таким образом, страница на сайте есть, а товара на ней уже нет, что делает ее неактуальной некоторое время. Из-за таких простоев страдает краулинговый бюджет — сайт имеет все шансы просесть в выдаче;
  • Держите xml-карты сайта в актуальном состоянии. По словам DrMax, для поисковой системы Google xml-карта сайта — это одна из важнейших вещей, которая работает на бюджет сканирования, так как поисковый «паук» ПС в первую очередь обращается именно к карте сайта в поисках новых страниц. По этой же причине в нее не стоит включать служебные страницы, корзины и прочие файлы, не имеющие прямого отношения к контенту сайта. Еще один важный пункт, касающийся карты сайта, — в ее коде должен быть прописан тег «lastmod». Владельцам сайтов на CMS Drupal следует уделить особое внимание карте сайта, так как в этой CMS она не обновляется автоматически;
  • Избегайте длинных цепочек редиректов. Идеальный вариант — это, вообще, отсутствие каких-либо редиректов. Если это невозможно, старайтесь применять их по минимуму;
  • Сделайте ваши страницы эффективными для загрузки. Проще говоря, сделайте так, чтобы ваш сайт загружался как можно быстрее. Это скажется не только на юзабельности, но и на скорости сканирования роботом;
  • Следите за сканированием вашего сайта. Этот параметр лучше всего отслеживать при помощи все той же Screaming Frog (утилита для анализа журналов сервера), собирая данные за несколько недель для более релевантного анализа.

Подводя итоги, DrMax выделил несколько важных пунктов для увеличения бюджета сканирования:

  • Ваш бюджет сканирования будет тем лучше, чем меньше у вас не 200-х страниц на сайте;
  • Чем лучше перелинковка на сайте, тем чаще будет пересканирована та страница, на которую проставлены ссылки;
  • Чем больше внешних ссылок проставлено на сайт, тем охотнее Google пересканирует его;
  • Время просмотра и количество просмотров страниц за сессию также влияют на частоту пересканирования и количество запросов.

Ответы на вопросы

Во второй части вебинара Максим Пивоваров и DrMax согласились на предложение Михаила ответить на несколько вопросов, которые появились в чате во время трансляции.

— Что за бот «Загрузка объектов страниц»? Что сканирует? Какие именно объекты?

Этот бот сканирует скрипты, файлы css и встроенные картинки в формате svg.

Голосуй за лучшую iGaming партнерку 2024. Престижная премия MAC AWARDS: твой голос может стать решающим

— Какие существуют частые ошибки, которые мешают сканированию сайта?

Все технические ошибки, а также ошибки в разметках и несоответствие требованиям mobile friendly (как правило, речь идет про горизонтальную прокрутку и маленький размер кнопок и ссылок).

— Как сделать так, чтобы ненужные страницы не сканировались?

Самый простой способ — это закрытие через robots.txt.

— Все время страниц 404 все больше и больше, и на это все тратится бюджет сканирования. Так что, делать 410? Удалять = 404 = переобход.

Чтобы сократить число 404 страниц, надо удалить на них все внутренние ссылки и перенаправить все внешние ссылки, которые ведут на 404-е страницы, по другим адресам внутри сайта. Как вариант, да, делать 410-е страницы.

— Как улучшить сканирование сайта после переезда на новый домен или движок?

Есть такая фишка — на некоторое время сделать 301-й редирект со старого домена на все страницы нового, при этом оставив на старом домене xml-карту сайта со старыми ссылками. Плюс после переезда следует заняться прокачкой ссылочного профиля, закупая как можно больше ссылок на страницы сайта.

— Какие аддурилки сейчас самые лучшие и эффективные для средних и крупных проектов?

Для Google вполне подойдет Indexing API.

— Как относитесь к закрытию сайта от индексации для всех, кроме гуглобота с пулом его IP-адресов?

Если нет потребности в других поисковиках, то вполне можно такое делать.

— Можно ли к трехлетнему домену на английском и с частью русского контента уже с неплохими параметрами приклеить очень крутой ru-домен с мощными DR и TR. Даст ли это плюс?

Лучше всего — это «приклеить» такой домен к разделу на русском языке.

— Если нет возможности убрать ненужные страницы, может тогда лучше добавить в них теги noindex и nofollow?

Если речь про бюджет сканирования, то эти теги не сыграют никакой роли. Даже если их прописать в коде, боты поисковых систем все равно приходят на такие страницы.

— Не подскажете, как достать все запросы, по которым ранжируется сайт, из Google Search Console? И какие сейчас наиболее актуальные способы сбора СЯ под Google?

Можно попробовать достать все запросы через API. Что касается сбора семантического ядра, то одним из лучших инструментов можно считать SemRush, если речь про проект под западную аудиторию. Если проект под русскоязычную аудиторию, то KeyCollector (платное решение) или Wordstat и Google Trends (бесплатно).

Топовые спикеры международного рынка KJ ROCKER и VAN OAKES на MAC’24 30-31 мая в Ереване. Успей купить билет со скидкой до 30%

— В отчете Google Search Console по сканированию проекта преобладают типы файлов JSON и JavaScript, 55% и 15% соответственно. Проекту почти год, страницы индексируются медленно. При отключении JavaScript на странице контент отображается частично. Проект на Wordpress с платформой Elementor. Это может влиять на индексирование? И как, вообще, Google воспринимает Javascript-контент? Дайте, пожалуйста, ваши рекомендации в данной ситуации. Спасибо.

Стоит попробовать выполнить минификацию, объединение (есть риск «поломки» Elementor'a), сжатие и браузерное кэширование Javascript-файлов. Все это можно сделать в платной версии плагина WPRocket. Также проверьте, закрыты ли ваши ява-скрипты в файле robots.txt. Если да, то, наоборот, откройте их.


Подписывайтесь на наш Telegram-канал про классический манимейкинг, в котором мы пишем про SEO-оптимизацию сайтов и заработок на этом, а также про соцсети, YouTube и другие способы манимейкинга.

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.


Топовая партнерка 1xSlots