29 января 2023 0 6523

В сеть утекли данные о факторах ранжирования в «Яндекс» — подборка инфы о сливе: таблицы, сайты и мнения SEO-специалистов

На фоне произошедших событий с утечкой исходных кодов сервисов Яндекс, мы решили собрать всю информацию об этом в одном месте. А точнее — о факторах ранжирования сайтов в поисковой системе. Эти данные, возможно, будут полезны специалистам по SEO и всем, кто занимается продвижением сайтов в этой поисковой системе.

Небольшая хронология событий:

  • В марте 2022 года, в сеть утекли данные «Яндекс.Еды».
  • 25 января 2023 года, на одном из хакерских форумов, был опубликован пост со ссылкой на скачивание 44,7 Гигабайт данных сервисов и программ Яндекса.
  • 26 января 2023 года представители Яндекс подтвердили Хабру публикацию исходных кодов части проектов из внутреннего репозитория: «Никакого взлома Яндекса не было. Служба безопасности Яндекса обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. Однако их содержимое отличается от текущей версии репозитория, которая используется в сервисах Яндекса. Репозиторий — это один из инструментов для разработки внутри большинства компаний, который доступен их разработчикам. Репозитории нужны для работы с кодом и не предназначены для хранения персональных данных пользователей. Мы проводим внутреннее расследование о причинах попадания фрагментов исходного кода в открытый доступ, но не видим какой-либо угрозы для данных наших пользователей или работоспособности платформы», — сообщили Хабру в пресс-службе компании.

Дисклеймер: вся приведенная ниже информация представлена исключительно в ознакомительных целях и взята из открытых источников. Редакция Партнеркина ни к чему не призывает и не пытается как-то повлиять на работу и репутацию компании «Яндекс».

Пост из Telegram-канала «SEO без воды»:

Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS! К заливам!

Наблюдения по сливу от Alex Buraks
Факторы:
Возраст ссылок в Яндексе как фактор ранжирования.
Трафик и % органического трафика как фактор.
Цифры в адресах страниц (урлах).
Количество слэшей в адресах страниц (урлах).
Зануление PR называется Hard pessimization.
Надежность хоста. Определяется как доля страниц без ошибок (видимо, имеются в виду коды ответа 4** и 5** сервера).
— Отдельный фактор для википедии.
— Пачка поведенческих факторов: ластклик, CTR, время на сайте, показатель отказа.
Возраст документа и дата последнего обновления. Здесь интересно, что в прошлом сливе алгоритма фигурировал срок 3 года как предельный к учёту. Здесь указан предел в 10 лет. То есть, видимо, страница с возрастом 10 лет по этому фактору будет такой же, как 30-летняя.
Средняя позиция домена по всем запросам.

При клике по ссылкам откроется скриншот этого куска кода.

В Telegram-канале «Lord Alfred» были опубликованы коэффициенты для факторов в ранжировании Y:

Потратил уже больше 10 часов на изучение исходников, но благодаря коллегам, опубликовавшим найденные факторы, наткнулся на формулу с коэффициентами, прогнал её в удобочитаемый вид и дополнил описанием факторов. Очень интересно посмотреть на ранжирование изнутри, особенно обладая такими знаниями.

Но хочется поделиться и небольшим огорчением от увиденного. Так как Y изнутри по большому счёту — это огромное хранилище данных, всё, что есть в исходниках — это безграничные кучи разрозненных скриптов. Судя по всему, бОльшая часть задач у них сводится к получению + трансформации полученных данных из одного источника и перекладыванию результата в другой. Эдакий подход Map-Reduce».

Ссылка на Y-Factors Formula.

Автор Telegram-канала «Black Hat SEO» опубликовал табличку со всеми факторами Y и отдельно текстовыми:

Партнерка TikTok в 2024: как превратить просмотры в деньги. Что публиковать и как подключить монетизацию?

Кто-то сделал на основе данных удобную табличку со всеми факторами Y. Можно применить фильтры, что гораздо удобнее. Ознакомиться можно по этой ссылке.

Выделил для вас «текстовые факторы», то есть именно те, что используются/использовались для оценки выложенного контента под тегом TG_DOC_TEXT судя по всему TG_DOC относится ко всему документу. Исключил deprecated.

Могу сделать вывод, что данные для оценки общепринятые в науке информационного поиска, поэтому можно предположить, что в Google, Bing должны быть похожие критерии оценки, так как сходятся с теми, что находятся в исследовательских работах сотрудников компаний. Ознакомиться можно по этой ссылке.

Пост из Telegram-канала «SEO-специалист» со всеми факторами Y и параметрами:

Факторы без обозначенных весов в формуле ранжирования — большого практического смысла не имеют. Но у некоторых факторов есть пометка UNUSED, что означает — фактор устарел и не используется, что уже интересно.

Есть бинарные факторы, а есть и те, у которых имеются четко определенные значения от и до. Самый свежий фактор датируется 2022-03-24 — его имплементировали ровно через месяц после начала событий на Украине.

Если хотите сами покопаться в факторах со всеми параметрами, вот гугл-таблица, которую можно как угодно отсортировать: по использованию, дате имплементации и так далее. На таблицу я открыл доступ для чтения, но вы можете создать копию и свободно ее редактировать.

В целом факторы ранжирования актуальны, многое нам известно. Но это просто описание, некая информационная база. Слитые исходники сервисов Y в распакованным виде весят гигабайты чистого кода, в котором еще разбираться и разбираться…

Ссылка на Google-таблицу со всеми факторами и параметрами Y.

В Telegram-канале «АлаичЪ про SEO, бизнес и …» был опубликован зарубежный сайт с удобным поиском по всем факторам Y:

TON Society, ELama и Magnetto на одном ивенте: ради чего стоит посетить TelemetrConf, если вы — аффилейт-маркетолог

В каждом канале про SEO (и не только) обсуждают главное событие последних дней — слив базы из Y. Сеошникам, понятное дело, интересны факторы ранжирования на поиске. Уже есть подборки ссылочных, текстовых, поведенческих, хостовых и других факторов.

Всего в оригинальном документе обозначено 1922 фактора: из них 244 с пометкой неиспользуемые (unused), а 988 – отмененные (deprecated). Таким образом, 64% факторов из документа либо не используются, либо были заменены (отменены), так что это больше похоже на 690 потенциальных факторов ранжирования.

Многие описания являются очень краткими и не всегда понятными, а некоторые ссылаются на внутреннюю (недоступную нам) wiki. Тем не менее изучить это интересно и полезно для общего развития, и чтобы понять, насколько изощренными могут быть разработчики алгоритмов.

Когда я читал исходный txt файл, сразу подумал, что неплохо было бы иметь какой-то классификатор. Всякие таблички и гугл-доки — это неплохо, но неудобно. И на одном из зарубежных сайтов (да, там тоже сеошники обсуждают эту новость, но не так активно), я нашел ссылку на сервис.

На этом сайте есть полнотекстовый поиск (например, можете ввести «title» и увидеть все факторы, где в заголовке или описании упоминается title) и группировка по тегам. Решил, что в дополнение к уже имеющейся у вас информации, этот ресурс будет не лишним.

Ссылка на сервис с текстовым поиском по всем факторам Y.

Мы будем обновлять подборку по мере появления новой информации + дублировать все в наш основной Telegram-канал и/или канал про классический манимейкинг — подписывайтесь, чтобы не пропускать все интересные и важные новости из мира манимейкинга и партнерского маркетинга.

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.

Партнеркин рекомендует
Партнерки
1win Partners
Топовая беттинг и гемблинг партнерка
TRAFORCE
Дейтинговая СPA-сеть
Affiliate Top
Надежная партнерка по бинарным опционам
Сервисы
Dolphin{anty}
Лучший антидетект браузер
PARTNERKIN
20%
FlexСard
Виртуальные карты для арбитража трафика
PARTNERKIN
Карты free
AdPlexity
Мониторинг мобильной, десктоп и нативной рекламы
partnerkin_m
25%


Trust RDP: аренда FB-акков