В конце января текущего года в сеть попали части исходного кода Яндекса. Слитый архив содержит 44,7 Гб данных, названия файлов в которых соответствуют наименованиям некоторых сервисов компании. Яндекс подтвердил факт утечки, но заверил пользователей, что их данным ничего не угрожает.
Это событие заинтересовало людей многих профессий, в том числе и SEOшников. Михаил Шакин провел вебинар со своим частым гостем Ильей Горбачевым. В этот раз ребята обсудили факторы ранжирования, полученные из слива.
А, что случилось?
Илья назвал данные Яндекса, которые недавно попали в сеть, лучшим подарком от поисковика для SEO-специалистов с 2013 года. В тот год один из сотрудников Яндекса украл определенный объем важной информации, которую пытался продать за баснословные деньги крупным SEO-агентствам. В итоге часть данных просочилась в свободный доступ, и SEOшники впервые смогли понять устройство внутренней кухни отечественной поисковой системы.
10 лет спустя, а именно 26 января 2023 года кто-то слил в сеть фрагменты кода из внутреннего репозитория Яндекса. В числе файлов был код самой поисковой системы и индексирующего бота, а также коды:
- Карт;
- Метрики;
- Маркета;
- Такси;
- Директа;
- Алисы.
Реакция Яндекса
В компании Яндекс утечку данных признали и поспешили заверить, что ничего катастрофического не произошло. В официальном уведомлении сказано, что актуальная версия репозитория отличается от той, что попала в сеть. Слитые файлы датируются 24 февраля 2022 года, поэтому не являются на 100% актуальными.
Как это выглядит
Пример того, как выглядит нужный SEOшнику архив показан на скриншоте ниже. Среди тегов есть ссылки на wiki-статью с описанием конкретного фактора. Однако доступ к ней есть только у сотрудников Яндекса.
Важный момент, на котором сделал акцент Илья, заключается в том, что в архиве есть факторы, но не указана их значимость. То есть нет информации о том, какие они имеют веса по поисковым запросам. Помимо этого непонятно, как обучены факторы, работающие на основе искусственного интеллекта.
Что в табакерке?
Спикер тщательно проанализировал слитые данные и пришел к таким выводам. Файлы содержат 1 923 фактора, из которых:
- 242 — не используются;
- 998 — устарели;
- 160 — не реализованы.
Таким образом, всего 651 фактор является рабочим.
Группы факторов
SEO-специалисты привыкли делить факторы на поведенческие, текстовые и так далее. Яндекс группирует их несколько иначе. Кроме того, есть факторы, которые не принадлежат ни к каким группам. Ниже перечислены группы факторов и дано их краткое описание:
- Datetime. В эту группу входят факторы, связанные с датой документа, то есть страницы. Эту дату определяет датировщик RobotAddTime, и она не связана с той, которую SEOшник указывает, например, в микроразметке. Эта группа содержит 8 факторов, из которых на сегодняшний день используется только 6;
- RapidClicks. Это группа поведенческих факторов, связанных с быстрыми кликами, когда пользователь переходит из поиска на страницу. Она содержит 33 фактора, 9 из которых используются на данный момент;
- RegHostStatic. Содержит факторы, связанные со статистикой кликов сайта в поиске по регионам. Данная группа также относится к поведенческим;
- RegDocStatic — еще одна группа поведенческих факторов, связанных со статистикой кликов документа в поиске по регионам;
- TextBM25. Содержит текстовые факторы ранжирования по зоне заголовка и тексту документа. Рабочих факторов в группе 26 штук;
- BM25F. Группа этих факторов осуществляет отдельный текстовый анализ для каждой зоны документа, (F — это field, то есть зона). Это сравнительно небольшая группа, в ней всего 4 фактора, 1 из которых устарел и еще 1 не используется;
- UrlBM25. Сюда входят текстовые факторы ранжирования по URL документа. То есть, если в адресе страницы есть какие-то ключевые слова, то они оцениваются по факторам именно этой группы. Состоит она из двух используемых факторов;
- DBM25. В эту группу входят текстовые факторы, где вес слов подобран с помощью машинного обучения. Состоит она из 11 факторов, 6 из которых используется, 5 устарели;
- AuxBM25. Содержит текстовые факторы по документу и ссылкам в рамках региона пользователя или страны. Они анализируют как сам текст документа, так и анкорные ссылки, ведущие на страницу;
- Annotation. Состоит из факторов, анализирующих слова в запросах, по которым пользователи переходили на сайт;
- Tocm и Bocm — это две смежные группы, анализирующие соответствие порядка слов в запросе порядку слов на странице. Первая группа соответствует тегу Title, вторая — Body;
- CombinedAds. Группа текстовых факторов, оценивающих комбинации слов в документе по их близости к началу страницы;
- CombinedSequences. Тут собраны факторы, оценивающие уровень соответствия вхождений в тексте документа запросам пользователя;
- ExactGroups. Содержит факторы, которые анализируют и выявляют неточное вхождение запроса в документ. В качестве примера можно привести запрос из четырех и более слов. Система разбивает эти запросы на отдельные фразы либо включает дополнительные, или производит замену слов. Таким образом она находит вхождения необходимых слов на странице;
- QSegments. Факторы этой группы помогают анализировать текст документа по частотным фрагментам поискового запроса;
- QueryWordSequences (TR/LR). Оценивают вхождение двух и более слов из запросов в тексте документа и его входящих ссылках;
- Legacy (TR/LR). Содержит факторы, анализирующие вхождения в документ, а также внешние ссылки слов запроса, которые расположены подряд или в одном предложении;
- Dynamic. Данная группа содержит самые простые в расчете факторы, в том числе те, которые влияют на вид выдачи;
- Bclm. Тут содержатся текстовые факторы, учитывающие номер предложения и позицию вхождения в нем;
- TextForms. Группа содержит текстовые факторы, которые учитывают разнообразие словоформ в документе. Например, пользователь ввел запрос «пластиковые окна». Факторы этой группы находят в тексте слова «оконный» (блок), (пластиковых) «окон» и другие образованные от запроса формы;
- Query. В эту группу входят факторы, которые анализируют, к какой тематике сайтов относится сам поисковый запрос — коммерческий, строительный, юридический, адалт и так далее. Исходя из результатов анализа принимается решение о том, какие сайты показывать в выдаче по конкретному запросу.
Флаги (теги) факторов
В большинстве факторов используется несколько флагов или тегов. Ниже перечислены теги вышеперечисленных факторов с расшифровкой того, что они означают:
- TG_DYNAMIC / TG_STATIC. Данный тег определяет, зависит (DYNAMIC) фактор от запроса пользователя либо нет (STATIC). Сравнив все факторы, Илья пришел к выводу, что ни в одном из них эти группы тегов не пересекаются. В количестве зависимых флагов оказалось 1 132, не зависящих от запроса юзера — 672. Данное утверждение подтверждено самим Яндексом, причем только в документации на английском языке;
- TG_DOC. Применяется ко всему документу или ко всей странице. Всего в слитом файле таких тегов 1 129 штук;
- TG_DEPRECATED. Означает, что фактор, в котором он применен, устаревший. Таких факторов в файле 998 штук;
- TG_DOC_TEXT. Означает, что фактор работает с текстовой моделью документа, то есть преобразовывает файл в текст, а потом с ним взаимодействует. Всего таких факторов 362 штуки;
- TG_UNUSED. Его применение говорит о том, что фактор не используется в текущей формуле ранжирования. Он указан в 242 факторах;
- TG_NEURAL. Означает, что фактор работает на основе нейросети. То есть наличие этого тега в факторе подразумевает, что в нем есть какой-то дополнительный алгоритм, который по различным параметрам оценивает конкретный механизм сайта. Таких факторов 196 штук;
- TG_BINARY. Означает, что фактор имеет 2 значения — да или нет. Пример наличия такого тега — это фактор, отвечающий на вопрос, является ли страница главной. Всего в файле 192 таких фактора;
- TG_BROWSER. Такой флаг есть в факторах, учитывающих поведение пользователя в Яндекс Баре, Яндекс Элементах и Яндекс Браузере. Он указан в 185 факторах;
- TG_UNIMPLEMENTED. Данный тег указывает на то, что фактор еще технически не реализован. Вероятнее всего это те, которые находятся на этапе внутреннего тестирования. Всего их в файле 160 штук;
- TG_LINK_TEXT. Означает, что фактор учитывает данные из анкорного текста внешних ссылок. Он встречается в 145 факторах;
- TG_LINK_GRAPH. Указывает на то, что при расчете фактора используются данные ссылочного графа, то есть какая ссылка стоит на продвигаемую страницу. Факторов с таким флагом в файле 39 штук;
- TG_OWNER. Означает, что этот фактор уровня владельца сайта используется для того, чтобы находить спамеров. Например, Яндекс по этому тегу может вычислять сетки сайтов. Флаг указан в 141 факторе;
- TG_THEME_CLASSIF. Этот тег есть у 49 факторов, которые учитывают данные классификатора тематик;
- TG_COMMERCIAL. Означает, что фактор учитывает «коммерческость» запроса или страницы. Таких факторов 39 штук;
- TG_MASCOT. Факторы с этим тегом учитывают поведение пользователя в поиске. Они определяют, насколько юзерупосчастливилось (mascot — приносящий счастье на англ.) найти нужную информацию. Он указан в 22 тегах;
- TG_LOCALIZED_COUNTRY. Означает, что фактор считается в рамках страны пользователя, то есть он оценивает только те страницы, которые имеют отношения к конкретному государству и/или юзерамиз него. Он есть в наличии у 45 факторов;
- TG_LOCALIZED_REGION. Аналогичен предыдущему, только в рамках отдельного региона.
Факторы ранжирования Яндекса
Как можно сделать вывод из предыдущих разделов данной статьи, факторов ранжирования достаточно много, но не все они имеют существенное значение в ранжировании. Поэтому Илья выделил наиболее интересные с точки зрения полезности для SEO-специалиста и разделил их по сферам применения:
Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS!
К заливам!
Ссылки с Википедии
Есть два фактора, которые учитывают ссылки на сайт с Википедии:
- WikiLinkCount — анализирует количество ссылок с Википедии на страницу;
- WikiInfobox — оценивает ссылки с инфобокса, пример показан на скриншоте ниже.
Главная страница
Root — простой бинарный фактор, имеющий два значения: «да» и «нет».
Ядро аудитории
Включает в себя 2 фактора:
- YaBarCoreOwner;
- YaBarCoreHost.
Они связаны с размером аудитории одного или нескольких сайтов владельца, по данным Яндекс Бара, Яндекс Элементов и Яндекс Браузера.
Факторы наличия рекламы
Оба фактора, представленные ниже, бинарные.
- Adv — показывает, есть ли реклама на сайте;
- YandexAdv — показывает наличие рекламы Яндекса на сайте.
Возвращение пользователя на сайт
С этим действием связано 11 факторов. Их название показано на картинке ниже.
Илья предположил, что все перечисленные выше факторы связаны с персонализацией поиска. Другими словами, Яндекс собирает информацию, чтобы рекомендовать юзеру сайты, на которых он уже был либо схожие с ними.
«Хабовость» страницы
IsHub — бинарный фактор, показывающий факт: является страница хабом или нет. Под хабом понимается общая навигационная страница, посвященная одной теме, которая раскрывает какие-то особенности объекта на внутренних страницах. Пример такой страницы ниже на фото.
Мобильные документные факторы
Эта группа факторов оценивает поведение пользователей, которые зашли на сайт с мобильных устройств.
- USLongPeriodUrlMobileDt180Avg;
- USLongPeriodUrlMobileLongClickProb;
- USLongPeriodUrlMobileLossesProb;
- USLongPeriodUrlMobileDt3600AvgReg;
- USLongPeriodUrlMobileDt180AvgReg.
Такое количество выделенных под мобайл факторов подтверждает теорию, что ранжирование десктопа и мобильных устройств отличается.
«Всегда нужно анализировать сайт не только с компьютера, но и со смартфона, чтобы получить полную картину происходящего на нем. Аналогичным образом стоит поступать и при анализе сайтов конкурентов», — дал рекомендацию SEO-специалистам Илья Горбачев.
Выводы
После изучения слитого кода поисковой системы спикер поделился следующими выводами:
- Монолитный индекс «покинул чат». Ранее считалось, что Яндекс анализирует текст совместно с анкорами, то есть публикациями, которые ссылаются на страницу. Сейчас тексты страницы и входящих ссылок анализируются отдельно. Все факторы TextAndLinkBM25 больше Яндексом не используются;
- Title значимее контента. Лучше не добавлять в заголовки лишних слов и тем более малоизвестные бренды. Title должен быть естественным и лаконичным;
- Параметр AntiSeoUpperBound почти везде отсутствует либо равен единице. Под данным параметром подразумевается верхняя граница, установленная для SEO. У некоторых устаревших факторов этот параметр был ниже 0,5. Это говорит, что по ним стоял SEO-фильтр, и когда SEOшник перебарщивал с текстами или ссылками, поисковая система била по ранжированию страниц. Сейчас в этом отношении Яндекс стал более либеральным.
Ответы на вопросы
В заключении вебинара Илья ответил на многочисленные вопросы слушателей. Самые интересные из них мы опубликовали в завершении этой статьи.
Повлияет ли слив факторов на решение Яндекса радикально изменить алгоритмы ранжирования?
Я думаю, что нет. По сути в той информации, которую мы получили, нет каких-то мегасекретных данных. Яндекс об этом тоже прекрасно знает. Кроме того поисковик очень печется о качестве выдачи, поэтому радикальные изменения он вряд ли будет внедрять. В противном случае могут быть серьезные просадки, что сразу скажется на качестве поисковой выдачи.
Почему у Яндекса часть информации исключительно на английском языке?
Между Яндексом и Google идет извечная борьба за титул «кто круче». Они постоянно пытаются друг другу что-то доказать, в том числе и в своей документации. Соответственно, они таким образом общаются на международном языке.
Изменилось ли что-то, по твоему мнению, в ранжировании Яндекса за последний год?
В тех нишах, в которых я продвигаю свои сайты никаких глобальных изменений замечено не было. Все происходит точно так же, как несколько лет назад. Единственное, что хотелось бы выделить, конечно же, с положительной стороны — это скорость попадания страниц в индекс. Google до этого еще очень далеко.
Есть мнение, что поведенческие факторы вырезать из формулы ранжирования невозможно. Что ты думаешь на этот счет?
В формуле есть факторы как связанные, так и не связанные с ПФ. То есть теоретически их можно удалить. Другой вопрос в том, насколько практически это целесообразно делать. По моему мнению, результаты поиска сильно просядут, если исключить из формулы ранжирования поведенческие факторы.
При этом ПФ не могут быть доминирующими в ранжировании, их необходимо компенсировать, иначе всю выдачу заполнят сайты для взрослых. Также это важно для того, чтобы бороться с накрутчиками ПФ.
Будет ли проблема, если копирайтеры будут использовать текст, сгенерированный нейросетями, выдавая его за свой?
Если копирайтер грамотно подойдет к этому вопросу: вычитает и причешет сгенерированный текст, то я вообще не вижу проблемы. Так или иначе текст после генеренки необходимо дорабатывать. Когда это сделает профессионал, результат будет только лучше.
Тут можно провести аналогию с переводами. Вы перевели текст в Google translate, а затем дали его нейтиву на проверку. Он поправит нюансы, и в итоге получится отличный перевод.
Какой вес ссылочного фактора для Яндекса?
Сложно ответить на этот вопрос. Вероятно, это зависит от тематики сайта. Учитывая, что факторов, которые оценивают ссылочный граф, всего 3, и 2 из них — это Википедия, можно предположить, что вес ссылочного в Яндексе не очень большой.