10 марта 2023 0 952

Разбор факторов ранжирования Яндекса из слива

В конце января текущего года в сеть попали части исходного кода Яндекса. Слитый архив содержит 44,7 Гб данных, названия файлов в которых соответствуют наименованиям некоторых сервисов компании. Яндекс подтвердил факт утечки, но заверил пользователей, что их данным ничего не угрожает.

Это событие заинтересовало людей многих профессий, в том числе и SEOшников. Михаил Шакин провел вебинар со своим частым гостем Ильей Горбачевым. В этот раз ребята обсудили факторы ранжирования, полученные из слива.

А, что случилось?
Илья назвал данные Яндекса, которые недавно попали в сеть, лучшим подарком от поисковика для SEO-специалистов с 2013 года. В тот год один из сотрудников Яндекса украл определенный объем важной информации, которую пытался продать за баснословные деньги крупным SEO-агентствам. В итоге часть данных просочилась в свободный доступ, и SEOшники впервые смогли понять устройство внутренней кухни отечественной поисковой системы.  

10 лет спустя, а именно 26 января 2023 года кто-то слил в сеть фрагменты кода из внутреннего репозитория Яндекса. В числе файлов был код самой поисковой системы и индексирующего бота, а также коды:

  • Карт;
  • Метрики;
  • Маркета;
  • Такси;
  • Директа;
  • Алисы.

Реакция Яндекса
В компании Яндекс утечку данных признали и поспешили заверить, что ничего катастрофического не произошло. В официальном уведомлении сказано, что актуальная версия репозитория отличается от той, что попала в сеть. Слитые файлы датируются 24 февраля 2022 года, поэтому не являются на 100% актуальными.

Как это выглядит
Пример того, как выглядит нужный SEOшнику архив показан на скриншоте ниже. Среди тегов есть ссылки на wiki-статью с описанием конкретного фактора. Однако доступ к ней есть только у сотрудников Яндекса.

Важный момент, на котором сделал акцент Илья, заключается в том, что в архиве есть факторы, но не указана их значимость. То есть нет информации о том, какие они имеют веса по поисковым запросам. Помимо этого непонятно, как обучены факторы, работающие на основе искусственного интеллекта.

Что в табакерке?
Спикер тщательно проанализировал слитые данные и пришел к таким выводам. Файлы содержат 1 923 фактора, из которых:

  • 242 — не используются;
  • 998 — устарели;
  • 160 — не реализованы.

Таким образом, всего 651 фактор является рабочим.

Группы факторов
SEO-специалисты привыкли делить факторы на поведенческие, текстовые и так далее. Яндекс группирует их несколько иначе. Кроме того, есть факторы, которые не принадлежат ни к каким группам. Ниже перечислены группы факторов и дано их краткое описание:

  • Datetime. В эту группу входят факторы, связанные с датой документа, то есть страницы. Эту дату определяет датировщик RobotAddTime, и она не связана с той, которую SEOшник указывает, например, в микроразметке. Эта группа содержит 8 факторов, из которых на сегодняшний день используется только 6;
  • RapidClicks. Это группа поведенческих факторов, связанных с быстрыми кликами, когда пользователь переходит из поиска на страницу. Она содержит 33 фактора, 9 из которых используются на данный момент;
  • RegHostStatic. Содержит факторы, связанные со статистикой кликов сайта в поиске по регионам. Данная группа также относится к поведенческим;
  • RegDocStatic — еще одна группа поведенческих факторов, связанных со статистикой кликов документа в поиске по регионам;
  • TextBM25. Содержит текстовые факторы ранжирования по зоне заголовка и тексту документа. Рабочих факторов в группе 26 штук;
  • BM25F. Группа этих факторов осуществляет отдельный текстовый анализ для каждой зоны документа, (F — это field, то есть зона). Это сравнительно небольшая группа, в ней всего 4 фактора, 1 из которых устарел и еще 1 не используется;
  • UrlBM25. Сюда входят текстовые факторы ранжирования по URL документа. То есть, если в адресе страницы есть какие-то ключевые слова, то они оцениваются по факторам именно этой группы. Состоит она из двух используемых факторов;
  • DBM25. В эту группу входят текстовые факторы, где вес слов подобран с помощью машинного обучения. Состоит она из 11 факторов, 6 из которых используется, 5 устарели;
  • AuxBM25. Содержит текстовые факторы по документу и ссылкам в рамках региона пользователя или страны. Они анализируют как сам текст документа, так и анкорные ссылки, ведущие на страницу;
  • Annotation. Состоит из факторов, анализирующих слова в запросах, по которым пользователи переходили на сайт;
  • Tocm и Bocm — это две смежные группы, анализирующие соответствие порядка слов в запросе порядку слов на странице. Первая группа соответствует тегу Title, вторая — Body;
  • CombinedAds. Группа текстовых факторов, оценивающих комбинации слов в документе по их близости к началу страницы;
  • CombinedSequences. Тут собраны факторы, оценивающие уровень соответствия вхождений в тексте документа запросам пользователя;
  • ExactGroups. Содержит факторы, которые анализируют и выявляют неточное вхождение запроса в документ. В качестве примера можно привести запрос из четырех и более слов. Система разбивает эти запросы на отдельные фразы либо включает дополнительные, или производит замену слов. Таким образом она находит вхождения необходимых слов на странице;
  • QSegments. Факторы этой группы помогают анализировать текст документа по частотным фрагментам поискового запроса;
  • QueryWordSequences (TR/LR). Оценивают вхождение двух и более слов из запросов в тексте документа и его входящих ссылках;
  • Legacy (TR/LR). Содержит факторы, анализирующие вхождения в документ, а также внешние ссылки слов запроса, которые расположены подряд или в одном предложении;
  • Dynamic. Данная группа содержит самые простые в расчете факторы, в том числе те, которые влияют на вид выдачи;
  • Bclm. Тут содержатся текстовые факторы, учитывающие номер предложения и позицию вхождения в нем;
  • TextForms. Группа содержит текстовые факторы, которые учитывают разнообразие словоформ в документе. Например, пользователь ввел запрос «пластиковые окна». Факторы этой группы находят в тексте слова «оконный» (блок), (пластиковых) «окон» и другие образованные от запроса формы;
  • Query. В эту группу входят факторы, которые анализируют, к какой тематике сайтов относится сам поисковый запрос — коммерческий, строительный, юридический, адалт и так далее. Исходя из результатов анализа принимается решение о том, какие сайты показывать в выдаче по конкретному запросу.

Флаги (теги) факторов
В большинстве факторов используется несколько флагов или тегов. Ниже перечислены теги вышеперечисленных факторов с расшифровкой того, что они означают:

  • TG_DYNAMIC / TG_STATIC. Данный тег определяет, зависит (DYNAMIC) фактор от запроса пользователя либо нет (STATIC). Сравнив все факторы, Илья пришел к выводу, что ни в одном из них эти группы тегов не пересекаются. В количестве зависимых флагов оказалось 1 132, не зависящих от запроса юзера — 672. Данное утверждение подтверждено самим Яндексом, причем только в документации на английском языке;

  • TG_DOC. Применяется ко всему документу или ко всей странице. Всего в слитом файле таких тегов 1 129 штук;
  • TG_DEPRECATED. Означает, что фактор, в котором он применен, устаревший. Таких факторов в файле 998 штук;
  • TG_DOC_TEXT. Означает, что фактор работает с текстовой моделью документа, то есть преобразовывает файл в текст, а потом с ним взаимодействует. Всего таких факторов 362 штуки;
  • TG_UNUSED. Его применение говорит о том, что фактор не используется в текущей формуле ранжирования. Он указан в 242 факторах;
  • TG_NEURAL. Означает, что фактор работает на основе нейросети. То есть наличие этого тега в факторе подразумевает, что в нем есть какой-то дополнительный алгоритм, который по различным параметрам оценивает конкретный механизм сайта. Таких факторов 196 штук;
  • TG_BINARY. Означает, что фактор имеет 2 значения — да или нет. Пример наличия такого тега — это фактор, отвечающий на вопрос, является ли страница главной. Всего в файле 192 таких фактора;
  • TG_BROWSER. Такой флаг есть в факторах, учитывающих поведение пользователя в Яндекс Баре, Яндекс Элементах и Яндекс Браузере. Он указан в 185 факторах;
  • TG_UNIMPLEMENTED. Данный тег указывает на то, что фактор еще технически не реализован. Вероятнее всего это те, которые находятся на этапе внутреннего тестирования. Всего их в файле 160 штук;
  • TG_LINK_TEXT. Означает, что фактор учитывает данные из анкорного текста внешних ссылок. Он встречается в 145 факторах;
  • TG_LINK_GRAPH. Указывает на то, что при расчете фактора используются данные ссылочного графа, то есть какая ссылка стоит на продвигаемую страницу. Факторов с таким флагом в файле 39 штук;
  • TG_OWNER. Означает, что этот фактор уровня владельца сайта используется для того, чтобы находить спамеров. Например, Яндекс по этому тегу может вычислять сетки сайтов. Флаг указан в 141 факторе;
  • TG_THEME_CLASSIF. Этот тег есть у 49 факторов, которые учитывают данные классификатора тематик;
  • TG_COMMERCIAL. Означает, что фактор учитывает «коммерческость» запроса или страницы. Таких факторов 39 штук;
  • TG_MASCOT. Факторы с этим тегом учитывают поведение пользователя в поиске. Они определяют, насколько юзерупосчастливилось (mascot — приносящий счастье на англ.) найти нужную информацию. Он указан в 22 тегах;
  • TG_LOCALIZED_COUNTRY. Означает, что фактор считается в рамках страны пользователя, то есть он оценивает только те страницы, которые имеют отношения к конкретному государству и/или юзерамиз него. Он есть в наличии у 45 факторов;
  • TG_LOCALIZED_REGION. Аналогичен предыдущему, только в рамках отдельного региона.

Факторы ранжирования Яндекса 
Как можно сделать вывод из предыдущих разделов данной статьи, факторов ранжирования достаточно много, но не все они имеют существенное значение в ранжировании. Поэтому Илья выделил наиболее интересные с точки зрения полезности для SEO-специалиста и разделил их по сферам применения:

Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS! К заливам!

Ссылки с Википедии
Есть два фактора, которые учитывают ссылки на сайт с Википедии:

  • WikiLinkCount — анализирует количество ссылок с Википедии на страницу;
  • WikiInfobox — оценивает ссылки с инфобокса, пример показан на скриншоте ниже.

Главная страница
Root — простой бинарный фактор, имеющий два значения: «да» и «нет».

Ядро аудитории
Включает в себя 2 фактора:

  • YaBarCoreOwner;
  • YaBarCoreHost.

Они связаны с размером аудитории одного или нескольких сайтов владельца, по данным Яндекс Бара, Яндекс Элементов и Яндекс Браузера.

Факторы наличия рекламы
Оба фактора, представленные ниже, бинарные.

  • Adv — показывает, есть ли реклама на сайте;
  • YandexAdv — показывает наличие рекламы Яндекса на сайте.

Возвращение пользователя на сайт
С этим действием связано 11 факторов. Их название показано на картинке ниже.

Илья предположил, что все перечисленные выше факторы связаны с персонализацией поиска. Другими словами, Яндекс собирает информацию, чтобы рекомендовать юзеру сайты, на которых он уже был либо схожие с ними.

«Хабовость» страницы
IsHub — бинарный фактор, показывающий факт: является страница хабом или нет. Под хабом понимается общая навигационная страница, посвященная одной теме, которая раскрывает какие-то особенности объекта на внутренних страницах. Пример такой страницы ниже на фото.

Мобильные документные факторы
Эта группа факторов оценивает поведение пользователей, которые зашли на сайт с мобильных устройств.

  • USLongPeriodUrlMobileDt180Avg;
  • USLongPeriodUrlMobileLongClickProb;
  • USLongPeriodUrlMobileLossesProb;
  • USLongPeriodUrlMobileDt3600AvgReg;
  • USLongPeriodUrlMobileDt180AvgReg.

Такое количество выделенных под мобайл факторов подтверждает теорию, что ранжирование десктопа и мобильных устройств отличается.

«Всегда нужно анализировать сайт не только с компьютера, но и со смартфона, чтобы получить полную картину происходящего на нем. Аналогичным образом стоит поступать и при анализе сайтов конкурентов», — дал рекомендацию SEO-специалистам Илья Горбачев.

Выводы
После изучения слитого кода поисковой системы спикер поделился следующими выводами:

  • Монолитный индекс «покинул чат». Ранее считалось, что Яндекс анализирует текст совместно с анкорами, то есть публикациями, которые ссылаются на страницу. Сейчас тексты страницы и входящих ссылок анализируются отдельно. Все факторы TextAndLinkBM25 больше Яндексом не используются;
  • Title значимее контента. Лучше не добавлять в заголовки лишних слов и тем более малоизвестные бренды. Title должен быть естественным и лаконичным;
  • Параметр AntiSeoUpperBound почти везде отсутствует либо равен единице. Под данным параметром подразумевается верхняя граница, установленная для SEO. У некоторых устаревших факторов этот параметр был ниже 0,5. Это говорит, что по ним стоял SEO-фильтр, и когда SEOшник перебарщивал с текстами или ссылками, поисковая система била по ранжированию страниц. Сейчас в этом отношении Яндекс стал более либеральным.  

Ответы на вопросы
В заключении вебинара Илья ответил на многочисленные вопросы слушателей. Самые интересные из них мы опубликовали в завершении этой статьи.

Зачем лимитировать число партнеров и как выбить из скам рекла деньги — интервью с Тихоном, со-овнером ПП The Limited Club

Повлияет ли слив факторов на решение Яндекса радикально изменить алгоритмы ранжирования?

Я думаю, что нет. По сути в той информации, которую мы получили, нет каких-то мегасекретных данных. Яндекс об этом тоже прекрасно знает. Кроме того поисковик очень печется о качестве выдачи, поэтому радикальные изменения он вряд ли будет внедрять. В противном случае могут быть серьезные просадки, что сразу скажется на качестве поисковой выдачи.

Почему у Яндекса часть информации исключительно на английском языке?

Между Яндексом и Google идет извечная борьба за титул «кто круче». Они постоянно пытаются друг другу что-то доказать, в том числе и в своей документации. Соответственно, они таким образом общаются на международном языке.

Изменилось ли что-то, по твоему мнению, в ранжировании Яндекса за последний год?

В тех нишах, в которых я продвигаю свои сайты никаких глобальных изменений замечено не было. Все происходит точно так же, как несколько лет назад. Единственное, что хотелось бы выделить, конечно же, с положительной стороны — это скорость попадания страниц в индекс. Google до этого еще очень далеко.

Есть мнение, что поведенческие факторы вырезать из формулы ранжирования невозможно. Что ты думаешь на этот счет?

В формуле есть факторы как связанные, так и не связанные с ПФ. То есть теоретически их можно удалить. Другой вопрос в том, насколько практически это целесообразно делать. По моему мнению, результаты поиска сильно просядут, если исключить из формулы ранжирования поведенческие факторы.

При этом ПФ не могут быть доминирующими в ранжировании, их необходимо компенсировать, иначе всю выдачу заполнят сайты для взрослых. Также это важно для того, чтобы бороться с накрутчиками ПФ.

Будет ли проблема, если копирайтеры будут использовать текст, сгенерированный нейросетями, выдавая его за свой?

Если копирайтер грамотно подойдет к этому вопросу: вычитает и причешет сгенерированный текст, то я вообще не вижу проблемы. Так или иначе текст после генеренки необходимо дорабатывать. Когда это сделает профессионал, результат будет только лучше.

Тут можно провести аналогию с переводами. Вы перевели текст в Google translate, а затем дали его нейтиву на проверку. Он поправит нюансы, и в итоге получится отличный перевод.

4 треш-истории скама в iGaming: кража $16 млн у звезды бейсбола и как полицейский депал на кредитные деньги

Какой вес ссылочного фактора для Яндекса?

Сложно ответить на этот вопрос. Вероятно, это зависит от тематики сайта. Учитывая, что факторов, которые оценивают ссылочный граф, всего 3, и 2 из них — это Википедия, можно предположить, что вес ссылочного в Яндексе не очень большой.

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.

Партнеркин рекомендует
Партнерки
1win Partners
Топовая беттинг и гемблинг партнерка
TRAFORCE
Дейтинговая СPA-сеть
Affiliate Top
Надежная партнерка по бинарным опционам
Сервисы
Dolphin{anty}
Лучший антидетект браузер
PARTNERKIN
20%
FlexСard
Виртуальные карты для арбитража трафика
PARTNERKIN
Карты free
AdPlexity
Мониторинг мобильной, десктоп и нативной рекламы
partnerkin_m
25%


Trust RDP: аренда FB-акков