×
Россия +7 (909) 261-97-71

Optimization 2023: текстовый анализ в 2024 году и методы увеличения релевантности страниц

Россия +7 (909) 261-97-71
Шрифт:
2 9923
Подпишитесь на нас в Telegram

На Optimization 2023 в рамках секции «Hard SEO» независимый SEO-эксперт Андрей Джилавдаров выступил с докладом «Текстовый анализ в 2024 году».

Андрей рассказал:

  • Как нейросети помогают улучшить качество поиска. 
  • Как считывать интент, определенный нейросетью, и как выявить под него маркерные запросы для анализа. 
  • Показал практические методы увеличения релевантности страниц в конкурентных нишах, чтобы быть не «как все».

Все обзоры ищите по тегу Optimization 2023.

Текстовое ранжирование

Задача поиска – оценить и дать ответ. Для этого у него есть инструменты (ML-машинное обучение, факторы ранжирования, нейросети), оценки экспертов и метрики качества поиска, то есть то, что поиск считает хорошим ответом.

История качества поиска

  • Если посмотреть на историю качества поиска, то до 2016 года работали простые вещи (TF-IDF, ВМ-25, BCLM) – все, что связано с вхождениями ключевых слов, количеством вхождений, порядком слов. 
  • С 2016 года были запущены первые нейросети – Палех и Королев (DSSM), а также таргеты на обучение – поведенческие факторы. 
  • В 2019 году произошло первое обучение нейросетей на экспертных оценках. Тогда можно было поставить одно слово в Title и попасть в ТОП. Это были первые обучения нейросетей на экспертной оценке. 
  • В 2020 году появилась новая архитектура для анализа текста – трансформер YATI. 
  • В 2021-2022 году произошло дообучение практически во всех экспертных нишах, которые было важно оценить. Первоначально там была медицина, но потом подтянули и остальные.

Коротко про YATI

YATI – это просто еще один трансформер с улучшениями. 

Схема устройства работы YATI

Схема устройства работы YATI

Эта такая модель или архитектура, которая рассматривает текст как последовательность токенов. Слово – это один токен. И так как эта модель видит текст полностью, она превращает каждое слово в тексте в семантический вектор, который передает смысл слова в этом предложении.

В трансформерах есть механизм self-attention, поэтому он получает информацию и с окружающих слов, то есть со всего текста вообще. Таким образом, получаем контекстозависимый смысл слова во всем большом тексте.

При обучении YATI использовали такую же модель обучения, как в BERT, Masked Language Model, когда половину слов в текстах закрывали и просили модель предсказывать эти слова. Если она их корректно восстанавливала, тогда считали, что они ее обучили. Но параллельно с этим они также просили ее угадать, был ли клик по документу, по данному запросу.

Дальше нейросеть нужно обучить на более сложные таргеты. Здесь используются накопленные данные Яндекса, такие как разметки по качеству хоста, разметки по релевантности страниц и многоаспектные оценки от экспертов.

Как улучшить качество поиска в сложных тематиках?

Сложные тематики – медицина, техника, финансы, юриспруденция, софт, программирование и другие. Суть общая: обычный человек, не эксперт, вряд ли сможет понять, что релевантно в выдаче по запросу, а что нет.

В чем могут быть проблемы?

  1. Проблемы с метриками. Допустим, люди-асессоры не знают сложную тему и могут формально поставить релевантную оценку не тому сайту. 
  2. Проблемы с моделями. Например, когда модели не видят каких-то слов, сленга или какой-то контент части документа. 
  3. Проблемы с количеством релевантных хостов или документов в индексе. Например, когда Google выкатил BERT, то оказалось, что Google показывает в выдаче большой пласт медицинских сайтов региональных клиник, в то время как в Яндексе эти сайты по медицинским запросам не брались даже в первичную обработку.

В 2021-2022 году Яндекс улучшил нейросеть:

  • добавили релевантные предложения; 
  • добавили в документную часть заголовки, начало текста документа (60 символов) и description документа. То есть описание документа, который SEO-шники никогда не заполняли, сейчас тоже идет в нейросеть, в представление документа.

Что такое релевантное предложение?

Когда человек ищет текст, поиск выбирает нужное вхождение на подходящем сайте и забирает релевантный текст вокруг. Этот текст идет в представление расширения документа.

Еще один важный пункт – сейчас, когда пользователь задает запрос, сразу определяется его тематика. Затем из индекса уже выбирается группа сайтов нужной тематики и среди них идет ранжирование.

Качества, которым должен обладать ответ

  1. Релевантность страницы. Ответ должен соответствовать потребности пользователя (содержать нужные вхождения). 
  2. Наполненность страницы. Ответ должен быть полным, учитывать все возможные интенты пользователя. Это означает, что по многим тематикам, например, медицинским, есть эталонные ответы. 
  3. Регион пользователя. Если содержание ответа зависит от региона, хорошей будет только та страница, которая соответствует региону пользователя. 
  4. Актуальность информации. Если содержание ответа меняется со временем, хорошим будет тот сайт, который содержит самую свежую на данный момент информацию. 
  5. Соответствие ОС. Мобильной или десктопной версии для разных пользователей. 
  6. Язык запроса. Ответ на языке пользователя лучше, чем ответ на любом другом языке. 
  7. Доверие к источнику (EAT). Ресурс, предоставляющий ответ, должен быть авторитетным. Нейросеть отлично понимает, что за ресурс перед ней, и какого он качества.

Интенты

На скриншоте представлен список интентов, которые есть в медицине. 

Интенты в запросах на медицинскую тему

Интенты в запросах на медицинскую тему

Но что делать, когда интента в запросе нет?

Смотрим, что подается сейчас в YATI для представления документа: 

Пример представления документа в YATI

Пример представления документа в YATI

Тут есть Title, подзаголовки, начало контента, разбивка URL, то есть, виден хост, ЧПУ и description и релевантные предложения. Поэтому, когда вы анализируете запросы, вы можете взять, например, ТОП-30 выдачи и посмотреть у сайтов все эти зоны и построить частотный словарь. 

Нейросеть выводит те документы наверх, где прописаны четкие интенты.

По словам Андрея, сейчас один из самых продуктивных подходов – это просто взять вашу вершину кластеров, посмотреть, какие в них есть интенты, и составить из них четкое, подробное ТЗ, где будут прописаны все пункты по тексту.

То есть мы идем не от того, что у нас есть какие-то ключевые слова, мы идем от того, что у нас есть интенты, у каждого интента есть своя семантика, нужно просто встраивать ее в статью.

Структура статьи, где каждая часть закрывает свой интент

Структура статьи, где каждая часть закрывает свой интент

Но SEO-специалисты хотят оптимизировать.

Как увеличить релевантность страниц?

Что можно сделать еще:

1.    Длинные вхождения ключевых слов (3 и более слова) используем в Title и подзаголовках. 

2. Вхождения ключей:

  • из семантики делаем частотный словарь по униграммам, биграммам и триграммам;
  • проверяем покрытие текста ключами из словаря.

3. В акварель генераторе just-magic.org. используем одно или несколько частотных ключевых слов:

  • проверяем покрытие текста биграммами из сервиса.

4. Делаем релевантные предложения = тексты для нулевых сниппетов.

Эти простые вещи помогают поднять релевантность текста.

Скоринг запросов по весу Seo-excel

Из ключей с частотностью можно построить скоринг или по-другому «Частотность Климова». 

Скоринг запросов по весу Seo-excel

Скоринг запросов по весу Seo-excel

На скриншоте в самом верху два запроса. Отличие только по окончанию. Смысл в том, что наверху находятся все запросы, которые покрывают правильным порядком слов менее частотные запросы. Поэтому можно сделать похожую разбивку и понять, что возьмете в title, а что возьмете в подзаголовки.

Про семантику. Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Если у вас есть много запросов, то их не надо все вставлять в текст. Достаточно просто нарезать их на униграммы, биграммы, то есть разбить на мелкие фракции и проверить вхождения. Для разбивки можно использовать любой сервис, например, SemTools.guru.

Тематические слова JustMagic 

Тематические слова в Just-magic.org

Тематические слова в Just-magic.org 

Принцип, похожий на предыдущий пункт. Андрей советует брать биграммы запроса, потому что в Яндексе очень много оценок и таргетов именно по биграммам. И если мы построим частотный словарь, то увидим, что основные интенты с какими-то нашими словами присутствуют рядом. Это означает, что все корректно собралось.

Дальше берем все наши униграммы, биграммы, тематические слова и просто проверяем текст:

Тематические слова в Just-magic.org

Если мы видим примерно такую картину, это означает, что текст условно релевантный. То есть в нем есть все подзаголовки, вхождения запросов и это работает.

Релевантные предложения в Seolemma

В сервисе Seolemma есть функция релевантный пассаж. То есть в нем можно посмотреть вхождение ключа у себя и у конкурентов. Просто сравнить.

Если у вас, допустим, все вхождения ключевых слов с какими-то словами, которые несут смысл «с водой», то сервис покажет, что IDF маленький. А если с какими-то запросами, которые имеют смысл, то IDF большой.

Сервис не от Яндекса, но у него своя база, примерно в 30 миллионов URL, поэтому можно на него ориентироваться.

Как выглядят релевантные предложения: 

релевантные предложения

Можно делать в тексте несколько подобных вкраплений. Мы берем любой запрос, проверяем нулевой сниппет в Яндексе или в Google и стараемся в тексте у себя сделать такое же пояснение. 

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Игорь
    1
    комментарий
    0
    читателей
    Игорь
    6 месяцев назад
    это информация максимум уровня middle seo. что такой проходняк делает в секции hard seo когда-то великой ашмановки, еще и в исполнении токсичного инфоцыгана большая загадка)) ходил последние 5 лет на нее, но больше пожалуй не стоит
    -
    0
    +
    Ответить
  • Shimmer
    1
    комментарий
    0
    читателей
    Shimmer
    6 месяцев назад
    Работаю в Контентим, мы плотно работаем с SEO-оптимизацией. Но сейчас тексты все чаще отдают в подряд ИИ - с дальнейшей проверкой. Интересно, будут ли преференции или наоборот, игнор одних нейросетей по отношению к другим? И как вообще такие тексты будут оцениваться алгоритмами.
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как мы увеличили число посетителей сайта на 89 000 человек и индекс качества на 30 единиц за 4 месяца
Никита Ширяев
4
комментария
0
читателей
Полный профиль
Никита Ширяев - Здравствуйте, 1. ТЗ на создание контента, это всего лишь одна из задач, которую мы делаем на проекте. 2. Получаемый текст обязательно проходит проверки на спам. 3. ТЗ на создание контента, это ориентир для авторов. 4. Как раз таки ТЗ помогает не переспамить в тексте, так как мы замеряем показатели ТОПа и ориентируемся на него. И опять приведу Вам скриншот, который подтверждает постоянный рост рейтинга домена. DR имеет сильную прогрессию.
Авторы на RUTUBE теперь могут загружать видео в формате серий
Наиль г.Пенза
4
комментария
0
читателей
Полный профиль
Наиль г.Пенза - Ну что вы принимаете мою заявку? Или удалиться с "тихой грустью". А моих фото пока нет,они у меня удалились с Галереи, когда покупал себе смартфон. На фото пока моя дочь,сам я лежу в каридологие, сами понимаете какая у меня будет фотография
Рейтинги сайтов по отзывам в выдаче Яндекса: откуда берутся и как их улучшить
Romano
2
комментария
0
читателей
Полный профиль
Romano - дополнение: такие оценки не отображаются, но участвуют в общем рейтинге
Топ-10 SEO-курсов на 2024-2025 год для вашего роста
Рамазан Миндубаев
2
комментария
0
читателей
Полный профиль
Рамазан Миндубаев - Пока выглядит как реклама курсов от Пиксель, вы конечно молодцы, но стоит выделить курсы от авторов: 1. Антон Маркин 2. Дмитрий Шахов 3. Артур Латыпов 4. Бесплатные курсы от Девака от Колоборатор
Настоящий квест: как увеличили трафик на сайт сети компьютерных клубов в 19,5 раз, а число конверсий в 42,5 раза
Владлен
1
комментарий
0
читателей
Полный профиль
Владлен - Интересно, есть только вопрос по ссылкам, в каком диапазоне стоимость ссылки была, ведь судя по скринам за 5 месяцев было куплено 10 ссылок
Как вырастить трафик из блога в 9,7 раз за год. Кейс
Сергей Шабуров
1
комментарий
0
читателей
Полный профиль
Сергей Шабуров - Константин, здравствуйте! Лид-формы у нас прямо в статьях, так что трафик идет с самих статей.
В какой поисковой системе продвигать финансовый сайт: выводы исследования Sape
Sape
3
комментария
0
читателей
Полный профиль
Sape - Добрый день! Спасибо за вашу обратную связь. Да, действительно, метрика DA не обновляется последние три месяца из-за проблем с поставщиком данных. Мы уже работаем над этим, в ближайшее время исправим. На данный момент для отбора сайтов в системе доступны десятки других метрик, которые обновляются регулярно. Касательно цен — с ними всё в порядке. Если у вас есть вопросы относительно ценообразования, мы готовы на них ответить. Благодарим, что поделились мнением. Мы всегда рады конструктивному диалогу!
Мастер-класс по использованию операторов Wordstat: повышаем эффективность сбора семантики
Старый сеошник
3
комментария
0
читателей
Полный профиль
Старый сеошник - Ну это же просто рекламная статья ради обратной ссылки)))) Куча воды по абсолютно базовой информации. Справка Яндекса описала все тоже самое, но в 8 раз короче yandex.ru/support2/wordstat/ru/content/operators Ок, про историю запроса там нет. Но это же просто в интерфейсе кнопка)
3 ситуации, когда SEO вам не нужно
Гость
1
комментарий
0
читателей
Полный профиль
Гость - После выражения не попасть в просак можно дальше не читать. Если автор не знает что это значит это плохо а если знает еще хуже
Сбер представил новую версию своей ИИ-модели – GigaChat MAX
Иван Дроздов
1
комментарий
0
читателей
Полный профиль
Иван Дроздов - Ну это прежде всего будет полезно тем, кто пользуется сервисами сбера, но и новых юзеров наверняка привлечёт, нейросетка подает надежды
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
389
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!