22 ноября 2022 2 5994

Нейронные сети для SEO-специалистов и скрипт для поиска униграмм

На пятой онлайн-конференции «SEO без воды», которая прошла на одноимённом YouTube-канале, выступил Владислав Попернюк с докладом о нейросетях.

Он рассказал о том, как устроены нейросети, а также о:

  • Видах нейросетей для обработки текстов;
  • Нейросетях для SEO;
  • Как использовать нейросети в работе и многом другом.

Спикер с 2008 года в SEO, а последние несколько лет, в сферу его интересов входят:

  • Machine-Learning;
  • Natural language processing;
  • Нейронные сети и всё, что с этим связано.

Самое интересное из доклада Владислава собрано в этой статье. Советуем дочитать её до конца, так как в заключении будет интересный подарок от докладчика.

Что такое нейросеть

Картинка ниже демонстрирует то, что на сленге людей, кто в теме, называется «нейрон». Это математическая модель, из которой собираются нейронные сети.

Простыми словами описать её можно следующим образом:

  • На входе имеются некие данные, обозначенные, как «x»;
  • Входные данные умножаются на веса;
  • Затем все данные суммируются;
  • После чего преобразуются, при помощи функции активации.

Весом в нейронных сетях называют силу связи между нейронами. Например, если вес соединения узлов 1 и 3 больше чем узлов 2 и 3, то это означает, что нейрон 1 оказывает на нейрон 3 большее влияние. Нулевой вес означает, что изменение входа не повлияет на выход. Отрицательный вес показывает, что увеличение входа уменьшит выход.

Все нейроны связываются в слои, которые друг за другом выстраиваются в нейронные сети. На скриншоте ниже пример трехслойной нейронной сети.

Процесс обучения нейронной сети

Все этапы данного процесса схематично изображены на картинке ниже.

Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS! К заливам!

1. На старте обучения нейронная сеть чиста как мозг младенца — в ней нет абсолютно никакой информации. Все веса распространяются полностью рандомно;
2. Для начала обучения сети производится прогон данных. Для этого подаются данные на вход и забираются на выходе;
3. Полученные на втором этапе данные сравниваются с неким эталонным значением;
4. На этом этапе происходит корректировка весов, посредством функции back propagation. Суть корректировки состоит в том, чтобы изменением весов, и последующими прогонами, максимально приблизить значение на выходе к эталону.

Подытоживая всё вышесказанное, попробуем резюмировать максимально простым и понятным языком:

  • Нейронная сеть — это математическая модель, которая работает только с числами. То есть любые данные, которые нужно туда занести, предварительно необходимо оцифровать;
  • Для качественного обучения нейросети необходимо проводить тренировочные и тестовые выборки. Чем их больше и чем скрупулёзнее они проведены, тем лучше итоговый результат;
  • При тренировке нейросети происходит подстройка весов нейронов с целью уменьшения ошибки на выходе;
  • Все слои нейросети взаимодействуют между собой через операции матричного умножения.

Обработка текстов нейронной сетью

Владислав описал такой порядок обработки текстов нейронной сетью:

  1. Оцифровка текста или токенизация;
  2. Превращение оцифрованного текста в векторное пространство;
  3. Создание новой нейросети, или скачивание с GitHub готового решения;
  4. Обучение нейросети или использование предобученной модели.

Токенизация

На картинке ниже представлен пример оцифровки простого предложения.

Векторное представление текста

Следующий скриншот демонстрирует оцифровку слова «окно» в стомерную матрицу.

Особенностью вектора является то, что его можно складывать вычитать и находить косинусную близость. В качестве примера, на скриншоте ниже представлена модель, обученная по сниппетам из Яндекса по фразе «пластиковые окна Москва цена». На картинке продемонстрированы униграммы, которые данная нейронная сеть считает релевантными вышеуказанной фразе.

Всё вышеизложенное относится к нейросетям первого поколения. По сути, их функционал достаточно ограничен и умеют делать они следующее:

  • Классифицировать данные — определять авторство текста, его жанр и тому подобное;
  • Кластеризировать — группировать множество объектов;
  • Сегментировать — распознавать сущности внутри текста: гео, координаты, даты и так далее.

Ниже перечислены важные для SEO задачи, с которыми нейронные сети первого поколения не справляются:

  • Перевод текста;
  • Генерация текста;
  • Понимание смысла текста.

Трансформеры, как высшая степень развития нейронных сетей

Как легко можно догадаться, архитектура трансформера выглядит ещё более сложной, чем нейросети первого поколения. Она представлена на картинке ниже. Самое основное, что необходимо знать о ней — это то, что она состоит из двух частей:

Блогеры в TikTok: история упадка и нулевых доходов. Как использовать ситуацию в своих интересах и можно ли?
  • Encoder — отвечает за семантическое ранжирование;
  • Decoder (GPT) — отвечает за генерацию.

Обе части представляет собой трансформер T5 от Google — модель для машинного перевода.

Трансформеры имеют две ключевые особенности:

  1. Они анализирует весь текст и работают с предобученной моделью (эмбеддингом слов), а также учитывают порядок слов в тексте. Ранее было показано, как нейронная сеть первого поколения оцифровывает текст. По сути, это представляет собой хаотичный набор чисел, соответствующих определенным словам. В трансформерах оцифровка происходит с указанием позиции данного слова. Например, в шаге 3 на скриншоте ниже показано, что слово переведенное в число «55» имеет нулевую позицию. «21» имеет позицию «1» и так далее;
  2. Механизм «attention», который делает акцент на определенных особенностях текста. Примером может служить следующее: на входе находятся фотографии животных, на выходе ожидается получение фотографий котов. Механизм «attention», позволяет сделать акцент на рыжих котах, соответственно, на выходе с большой долей вероятности трансформер выдаст изображение с котами именно этого окраса.

Задачи, решаемые трансформерами

  • Семантическое ранжирование — BERT;
  • Машинный перевод текстов — T5;
  • Генерация текстов — GPT-2, GPT-3;
  • Выжимка смысла — когда из статьи на 2 500 символов, выгружается один абзац на 500 символов;
  • Детоксикация — исключение лишних слов;
  • Заполнение пропущенных слов;
  • Прогнозирование временных рядов. Тут имеется в виду, например, роботы которые прогнозируют курсы валют, акции и тому подобное;
  • Генерация картинок.

Как всем этим пользоваться?

Тот, кто дочитал статью до этого места, вероятно, сделал такой вывод: «Ничего не понятно, но жутко интересно». Для того, чтобы во всём разобраться и применять нейросети в работе с сайтами, Папернюк рекомендует такой алгоритм действий:

1. Изучить базовые курсы:

  • Языка программирования Python;
  • Программную библиотеку для обработки и анализа данных Pandas;
  • Библиотеку с открытым исходным кодом NumPy;
  • Библиотеку для визуализации данных двухмерной графики Matplotlib.

Стоит рассчитывать на то, что данное обучение займёт времени от 3 месяцев до полугода;
2. Научиться парсить базы данные с XPath RegExp;
3. Освоить Google Colab — это наиболее лёгкая среда для машинного обучения. Подписка на нее платная: от $10 до $100 в месяц. Также есть сложность в том, что резидентам РФ придётся там регистрироваться под VPN или пользоваться антидетект-браузерами.

Топ-1 антидетект-браузер 2024

Помимо этого, Владислав предложил использовать созданный им ToDo List для того, чтобы освоиться в теме нейросетей:

  • Ознакомиться с семейством ruGPT-3 тут;
  • Прочитать и опробовать на практике это. «Тыкаете на все кнопки OPEN_IN_COLAB — по всем треугольничкам, запускаете скрипты, играетесь с результатами», — дал совет эксперт по нейросетям. 
  • Подписаться на соцсети русскоязычного гуру нейросетей — Татьяну Шаврину.

Кроме этого, Попернюк дал ряд ссылок на полезные материалы по теме нейросетей:

Подарок вместо заключения

В качестве подарка слушателям своего доклада, Владислав презентовал скрипт поиска униграмм. По этой ссылке можно перейти к скрипту, вбить Яндекс XML и ключевое слово. Например, «купить велосипед в Москве». Скрипт обращается к XML-выдаче Яндекс, выгружает оттуда все сниппеты, прогоняет их через свой алгоритм и выдаёт униграммы, проранжированные по косинусной близости к ключевой фразе.

От себя добавим, что самое легкое в нейронных сетях — это произношение данного словосочетания. В остальном нужно разбираться. Но если поисковики выстраивают работу на основе нейронных сетей, то, очевидно, что заниматься SEO, не имея представления о том, как они работают, как минимум недальновидно.

Google AdSense закрывается в России: как теперь зарабатывать на рекламе? Аналоги сервиса и мнение Спрута

Подписывайтесь на наш Telegram-канал про классический манимейкинг, в котором мы пишем про SEO-оптимизацию сайтов и заработок на этом, а также про соцсети, YouTube и другие способы манимейкинга.

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.

Партнеркин рекомендует
Партнерки
1win Partners
Топовая беттинг и гемблинг партнерка
TRAFORCE
Дейтинговая СPA-сеть
Affiliate Top
Надежная партнерка по бинарным опционам
Сервисы
Dolphin{anty}
Лучший антидетект браузер
PARTNERKIN
20%
FlexСard
Виртуальные карты для арбитража трафика
PARTNERKIN
Карты free
AdPlexity
Мониторинг мобильной, десктоп и нативной рекламы
partnerkin_m
25%

Никита Ответить
Спасибо за статью, всё интересно и ... малопонятно. )))

Попробовал скрипт, потому что нужная прям вещь, почему то не работает. Очень жаль. было бы круто иметь какой то функционал попроще, типа Арсенкина.

02 декабря 2022, 12:38 0
Петя Ответить
Ну да и как только вы проходите указанные курсы и тратите кучу времени, стандарты индустрии меняются, Питон отходит и появляются новые библиотеки и способы работы с сетями.

Я бы не усложнял, хочешь пользоваться — пользуйся, просто настрой работу по API. Изучать особенности функционирования и поднимать свои сетки это видеокарт и времени жизни не напасёшься.

Ну и ты делаешь это одновременно с ещё сотней, например, китайцев, которые явно имеют лучше образование и структуру головного мозга..

18 февраля 2023, 23:57 0

Trust RDP: аренда FB-акков