10 марта 2023 0 1054

Разбор факторов ранжирования Яндекса из слива

В конце января текущего года в сеть попали части исходного кода Яндекса. Слитый архив содержит 44,7 Гб данных, названия файлов в которых соответствуют наименованиям некоторых сервисов компании. Яндекс подтвердил факт утечки, но заверил пользователей, что их данным ничего не угрожает.

Это событие заинтересовало людей многих профессий, в том числе и SEOшников. Михаил Шакин провел вебинар со своим частым гостем Ильей Горбачевым. В этот раз ребята обсудили факторы ранжирования, полученные из слива.

А, что случилось?
Илья назвал данные Яндекса, которые недавно попали в сеть, лучшим подарком от поисковика для SEO-специалистов с 2013 года. В тот год один из сотрудников Яндекса украл определенный объем важной информации, которую пытался продать за баснословные деньги крупным SEO-агентствам. В итоге часть данных просочилась в свободный доступ, и SEOшники впервые смогли понять устройство внутренней кухни отечественной поисковой системы.  

10 лет спустя, а именно 26 января 2023 года кто-то слил в сеть фрагменты кода из внутреннего репозитория Яндекса. В числе файлов был код самой поисковой системы и индексирующего бота, а также коды:

  • Карт;
  • Метрики;
  • Маркета;
  • Такси;
  • Директа;
  • Алисы.

Реакция Яндекса
В компании Яндекс утечку данных признали и поспешили заверить, что ничего катастрофического не произошло. В официальном уведомлении сказано, что актуальная версия репозитория отличается от той, что попала в сеть. Слитые файлы датируются 24 февраля 2022 года, поэтому не являются на 100% актуальными.

Как это выглядит
Пример того, как выглядит нужный SEOшнику архив показан на скриншоте ниже. Среди тегов есть ссылки на wiki-статью с описанием конкретного фактора. Однако доступ к ней есть только у сотрудников Яндекса.

Важный момент, на котором сделал акцент Илья, заключается в том, что в архиве есть факторы, но не указана их значимость. То есть нет информации о том, какие они имеют веса по поисковым запросам. Помимо этого непонятно, как обучены факторы, работающие на основе искусственного интеллекта.

Что в табакерке?
Спикер тщательно проанализировал слитые данные и пришел к таким выводам. Файлы содержат 1 923 фактора, из которых:

  • 242 — не используются;
  • 998 — устарели;
  • 160 — не реализованы.

Таким образом, всего 651 фактор является рабочим.

Группы факторов
SEO-специалисты привыкли делить факторы на поведенческие, текстовые и так далее. Яндекс группирует их несколько иначе. Кроме того, есть факторы, которые не принадлежат ни к каким группам. Ниже перечислены группы факторов и дано их краткое описание:

  • Datetime. В эту группу входят факторы, связанные с датой документа, то есть страницы. Эту дату определяет датировщик RobotAddTime, и она не связана с той, которую SEOшник указывает, например, в микроразметке. Эта группа содержит 8 факторов, из которых на сегодняшний день используется только 6;
  • RapidClicks. Это группа поведенческих факторов, связанных с быстрыми кликами, когда пользователь переходит из поиска на страницу. Она содержит 33 фактора, 9 из которых используются на данный момент;
  • RegHostStatic. Содержит факторы, связанные со статистикой кликов сайта в поиске по регионам. Данная группа также относится к поведенческим;
  • RegDocStatic — еще одна группа поведенческих факторов, связанных со статистикой кликов документа в поиске по регионам;
  • TextBM25. Содержит текстовые факторы ранжирования по зоне заголовка и тексту документа. Рабочих факторов в группе 26 штук;
  • BM25F. Группа этих факторов осуществляет отдельный текстовый анализ для каждой зоны документа, (F — это field, то есть зона). Это сравнительно небольшая группа, в ней всего 4 фактора, 1 из которых устарел и еще 1 не используется;
  • UrlBM25. Сюда входят текстовые факторы ранжирования по URL документа. То есть, если в адресе страницы есть какие-то ключевые слова, то они оцениваются по факторам именно этой группы. Состоит она из двух используемых факторов;
  • DBM25. В эту группу входят текстовые факторы, где вес слов подобран с помощью машинного обучения. Состоит она из 11 факторов, 6 из которых используется, 5 устарели;
  • AuxBM25. Содержит текстовые факторы по документу и ссылкам в рамках региона пользователя или страны. Они анализируют как сам текст документа, так и анкорные ссылки, ведущие на страницу;
  • Annotation. Состоит из факторов, анализирующих слова в запросах, по которым пользователи переходили на сайт;
  • Tocm и Bocm — это две смежные группы, анализирующие соответствие порядка слов в запросе порядку слов на странице. Первая группа соответствует тегу Title, вторая — Body;
  • CombinedAds. Группа текстовых факторов, оценивающих комбинации слов в документе по их близости к началу страницы;
  • CombinedSequences. Тут собраны факторы, оценивающие уровень соответствия вхождений в тексте документа запросам пользователя;
  • ExactGroups. Содержит факторы, которые анализируют и выявляют неточное вхождение запроса в документ. В качестве примера можно привести запрос из четырех и более слов. Система разбивает эти запросы на отдельные фразы либо включает дополнительные, или производит замену слов. Таким образом она находит вхождения необходимых слов на странице;
  • QSegments. Факторы этой группы помогают анализировать текст документа по частотным фрагментам поискового запроса;
  • QueryWordSequences (TR/LR). Оценивают вхождение двух и более слов из запросов в тексте документа и его входящих ссылках;
  • Legacy (TR/LR). Содержит факторы, анализирующие вхождения в документ, а также внешние ссылки слов запроса, которые расположены подряд или в одном предложении;
  • Dynamic. Данная группа содержит самые простые в расчете факторы, в том числе те, которые влияют на вид выдачи;
  • Bclm. Тут содержатся текстовые факторы, учитывающие номер предложения и позицию вхождения в нем;
  • TextForms. Группа содержит текстовые факторы, которые учитывают разнообразие словоформ в документе. Например, пользователь ввел запрос «пластиковые окна». Факторы этой группы находят в тексте слова «оконный» (блок), (пластиковых) «окон» и другие образованные от запроса формы;
  • Query. В эту группу входят факторы, которые анализируют, к какой тематике сайтов относится сам поисковый запрос — коммерческий, строительный, юридический, адалт и так далее. Исходя из результатов анализа принимается решение о том, какие сайты показывать в выдаче по конкретному запросу.

Флаги (теги) факторов
В большинстве факторов используется несколько флагов или тегов. Ниже перечислены теги вышеперечисленных факторов с расшифровкой того, что они означают:

  • TG_DYNAMIC / TG_STATIC. Данный тег определяет, зависит (DYNAMIC) фактор от запроса пользователя либо нет (STATIC). Сравнив все факторы, Илья пришел к выводу, что ни в одном из них эти группы тегов не пересекаются. В количестве зависимых флагов оказалось 1 132, не зависящих от запроса юзера — 672. Данное утверждение подтверждено самим Яндексом, причем только в документации на английском языке;

  • TG_DOC. Применяется ко всему документу или ко всей странице. Всего в слитом файле таких тегов 1 129 штук;
  • TG_DEPRECATED. Означает, что фактор, в котором он применен, устаревший. Таких факторов в файле 998 штук;
  • TG_DOC_TEXT. Означает, что фактор работает с текстовой моделью документа, то есть преобразовывает файл в текст, а потом с ним взаимодействует. Всего таких факторов 362 штуки;
  • TG_UNUSED. Его применение говорит о том, что фактор не используется в текущей формуле ранжирования. Он указан в 242 факторах;
  • TG_NEURAL. Означает, что фактор работает на основе нейросети. То есть наличие этого тега в факторе подразумевает, что в нем есть какой-то дополнительный алгоритм, который по различным параметрам оценивает конкретный механизм сайта. Таких факторов 196 штук;
  • TG_BINARY. Означает, что фактор имеет 2 значения — да или нет. Пример наличия такого тега — это фактор, отвечающий на вопрос, является ли страница главной. Всего в файле 192 таких фактора;
  • TG_BROWSER. Такой флаг есть в факторах, учитывающих поведение пользователя в Яндекс Баре, Яндекс Элементах и Яндекс Браузере. Он указан в 185 факторах;
  • TG_UNIMPLEMENTED. Данный тег указывает на то, что фактор еще технически не реализован. Вероятнее всего это те, которые находятся на этапе внутреннего тестирования. Всего их в файле 160 штук;
  • TG_LINK_TEXT. Означает, что фактор учитывает данные из анкорного текста внешних ссылок. Он встречается в 145 факторах;
  • TG_LINK_GRAPH. Указывает на то, что при расчете фактора используются данные ссылочного графа, то есть какая ссылка стоит на продвигаемую страницу. Факторов с таким флагом в файле 39 штук;
  • TG_OWNER. Означает, что этот фактор уровня владельца сайта используется для того, чтобы находить спамеров. Например, Яндекс по этому тегу может вычислять сетки сайтов. Флаг указан в 141 факторе;
  • TG_THEME_CLASSIF. Этот тег есть у 49 факторов, которые учитывают данные классификатора тематик;
  • TG_COMMERCIAL. Означает, что фактор учитывает «коммерческость» запроса или страницы. Таких факторов 39 штук;
  • TG_MASCOT. Факторы с этим тегом учитывают поведение пользователя в поиске. Они определяют, насколько юзерупосчастливилось (mascot — приносящий счастье на англ.) найти нужную информацию. Он указан в 22 тегах;
  • TG_LOCALIZED_COUNTRY. Означает, что фактор считается в рамках страны пользователя, то есть он оценивает только те страницы, которые имеют отношения к конкретному государству и/или юзерамиз него. Он есть в наличии у 45 факторов;
  • TG_LOCALIZED_REGION. Аналогичен предыдущему, только в рамках отдельного региона.

Факторы ранжирования Яндекса 
Как можно сделать вывод из предыдущих разделов данной статьи, факторов ранжирования достаточно много, но не все они имеют существенное значение в ранжировании. Поэтому Илья выделил наиболее интересные с точки зрения полезности для SEO-специалиста и разделил их по сферам применения:

Больше 1 миллиона MAU на Roblox-играх: история Элдара Азаматова

Ссылки с Википедии
Есть два фактора, которые учитывают ссылки на сайт с Википедии:

  • WikiLinkCount — анализирует количество ссылок с Википедии на страницу;
  • WikiInfobox — оценивает ссылки с инфобокса, пример показан на скриншоте ниже.

Главная страница
Root — простой бинарный фактор, имеющий два значения: «да» и «нет».

Ядро аудитории
Включает в себя 2 фактора:

  • YaBarCoreOwner;
  • YaBarCoreHost.

Они связаны с размером аудитории одного или нескольких сайтов владельца, по данным Яндекс Бара, Яндекс Элементов и Яндекс Браузера.

Факторы наличия рекламы
Оба фактора, представленные ниже, бинарные.

  • Adv — показывает, есть ли реклама на сайте;
  • YandexAdv — показывает наличие рекламы Яндекса на сайте.

Возвращение пользователя на сайт
С этим действием связано 11 факторов. Их название показано на картинке ниже.

Илья предположил, что все перечисленные выше факторы связаны с персонализацией поиска. Другими словами, Яндекс собирает информацию, чтобы рекомендовать юзеру сайты, на которых он уже был либо схожие с ними.

«Хабовость» страницы
IsHub — бинарный фактор, показывающий факт: является страница хабом или нет. Под хабом понимается общая навигационная страница, посвященная одной теме, которая раскрывает какие-то особенности объекта на внутренних страницах. Пример такой страницы ниже на фото.

Мобильные документные факторы
Эта группа факторов оценивает поведение пользователей, которые зашли на сайт с мобильных устройств.

  • USLongPeriodUrlMobileDt180Avg;
  • USLongPeriodUrlMobileLongClickProb;
  • USLongPeriodUrlMobileLossesProb;
  • USLongPeriodUrlMobileDt3600AvgReg;
  • USLongPeriodUrlMobileDt180AvgReg.

Такое количество выделенных под мобайл факторов подтверждает теорию, что ранжирование десктопа и мобильных устройств отличается.

«Всегда нужно анализировать сайт не только с компьютера, но и со смартфона, чтобы получить полную картину происходящего на нем. Аналогичным образом стоит поступать и при анализе сайтов конкурентов», — дал рекомендацию SEO-специалистам Илья Горбачев.

Выводы
После изучения слитого кода поисковой системы спикер поделился следующими выводами:

  • Монолитный индекс «покинул чат». Ранее считалось, что Яндекс анализирует текст совместно с анкорами, то есть публикациями, которые ссылаются на страницу. Сейчас тексты страницы и входящих ссылок анализируются отдельно. Все факторы TextAndLinkBM25 больше Яндексом не используются;
  • Title значимее контента. Лучше не добавлять в заголовки лишних слов и тем более малоизвестные бренды. Title должен быть естественным и лаконичным;
  • Параметр AntiSeoUpperBound почти везде отсутствует либо равен единице. Под данным параметром подразумевается верхняя граница, установленная для SEO. У некоторых устаревших факторов этот параметр был ниже 0,5. Это говорит, что по ним стоял SEO-фильтр, и когда SEOшник перебарщивал с текстами или ссылками, поисковая система била по ранжированию страниц. Сейчас в этом отношении Яндекс стал более либеральным.  

Ответы на вопросы
В заключении вебинара Илья ответил на многочисленные вопросы слушателей. Самые интересные из них мы опубликовали в завершении этой статьи.

Новый iGaming-продукт на платформе Extendy: Roman Casino

Повлияет ли слив факторов на решение Яндекса радикально изменить алгоритмы ранжирования?

Я думаю, что нет. По сути в той информации, которую мы получили, нет каких-то мегасекретных данных. Яндекс об этом тоже прекрасно знает. Кроме того поисковик очень печется о качестве выдачи, поэтому радикальные изменения он вряд ли будет внедрять. В противном случае могут быть серьезные просадки, что сразу скажется на качестве поисковой выдачи.

Почему у Яндекса часть информации исключительно на английском языке?

Между Яндексом и Google идет извечная борьба за титул «кто круче». Они постоянно пытаются друг другу что-то доказать, в том числе и в своей документации. Соответственно, они таким образом общаются на международном языке.

Изменилось ли что-то, по твоему мнению, в ранжировании Яндекса за последний год?

В тех нишах, в которых я продвигаю свои сайты никаких глобальных изменений замечено не было. Все происходит точно так же, как несколько лет назад. Единственное, что хотелось бы выделить, конечно же, с положительной стороны — это скорость попадания страниц в индекс. Google до этого еще очень далеко.

Есть мнение, что поведенческие факторы вырезать из формулы ранжирования невозможно. Что ты думаешь на этот счет?

В формуле есть факторы как связанные, так и не связанные с ПФ. То есть теоретически их можно удалить. Другой вопрос в том, насколько практически это целесообразно делать. По моему мнению, результаты поиска сильно просядут, если исключить из формулы ранжирования поведенческие факторы.

При этом ПФ не могут быть доминирующими в ранжировании, их необходимо компенсировать, иначе всю выдачу заполнят сайты для взрослых. Также это важно для того, чтобы бороться с накрутчиками ПФ.

Будет ли проблема, если копирайтеры будут использовать текст, сгенерированный нейросетями, выдавая его за свой?

Если копирайтер грамотно подойдет к этому вопросу: вычитает и причешет сгенерированный текст, то я вообще не вижу проблемы. Так или иначе текст после генеренки необходимо дорабатывать. Когда это сделает профессионал, результат будет только лучше.

Тут можно провести аналогию с переводами. Вы перевели текст в Google translate, а затем дали его нейтиву на проверку. Он поправит нюансы, и в итоге получится отличный перевод.

Дневник трат: как живет Николай Diveroli в Санкт-Петербурге с доходом $4000

Какой вес ссылочного фактора для Яндекса?

Сложно ответить на этот вопрос. Вероятно, это зависит от тематики сайта. Учитывая, что факторов, которые оценивают ссылочный граф, всего 3, и 2 из них — это Википедия, можно предположить, что вес ссылочного в Яндексе не очень большой.

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.

Партнеркин рекомендует
Партнерки
1win Partners
Топовая беттинг и гемблинг партнерка
TRAFORCE
Дейтинговая СPA-сеть
Affiliate Top
Надежная партнерка по бинарным опционам
Сервисы
Dolphin{anty}
Лучший антидетект браузер
PARTNERKIN
20%
FlexСard
Виртуальные карты для арбитража трафика
PARTNERKIN
Карты free
AdPlexity
Мониторинг мобильной, десктоп и нативной рекламы
partnerkin_m
25%