×
Россия +7 (909) 261-97-71

Теоретические основы текстового ранжирования в Яндексе (Часть 2. Текстовое ранжирование)

Россия +7 (909) 261-97-71
Шрифт:
0 14055
Подпишитесь на нас в Telegram

1. Введение
2. Основная часть
3. Рекомендации по оптимизации текста
4. Заключение

1. Введение

В предыдущей части мастер-класса мы познакомились с основами текстового ранжирования, а точнее с той частью, которая происходит непосредственно перед оценкой текстового веса документа.

Теперь рассмотрим основные текстовые факторы, влияющие на релевантность документа.

2. Основная часть

Итак, начнем с основ информационного поиска – формулы TF*IDF.

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа:



где ni есть число рассматриваемых употреблений слова, а в знаменателе общее число словоупотреблений.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Таким образом, понижается вес широкоиспользуемых слов.



где D — количество документов в корпусе;

- количество документов, в которых встречается ti, когда



Конечно же, Яндекс для оценки релевантности документа использует видоизмененную формулу. Сделаем сразу оговорку, что у нас речь пойдет об относительной релевантности, т.е. релевантности нескольких документов одному запросу, таким образом, величина IDF просто-напросто сократится при расчетах.

В общем виде формула имеет вид:



т.е. текстовая релевантность (W) рассчитывается как отношение количества найденных ключевых слов к «тошноте». «Тошнота» рассчитывается как квадратный корень из частоты самого часто встречаемого слова в документе.



Если ЧСЧВС меньше семи, то тогда:



Если «тошнота» превышает некий порог (для различных слов он различен, но примерно это интервал от 20 до 25), то Яндекс начинает искусственно занижать вес документа.

Почему «тошнота»? Это определение ввел в речевой обиход оптимизаторов Миныч, после этого определение так и прижилось.

Итак, из формулы мы видим, что в Яндексе нет такого понятия как «плотность ключевого слова», т.е. объем всего текста не учитывается. Это подтверждает эксперимент «Зависимость релевантности страницы от количества нерелевантных пассажей».

При расчете «тошноты» документа учитываются и стоп-слова. (См. эксперимент «Учет стоп-слов при расчете тошноты»).

Уточним далее формулу.

Не все ключевые слова вносят свой вклад в релевантность документа, а только те, которые попали в релевантные пассажи. Если запрос однословный, т.е. ключевой слово одно, то тогда любой пассаж, содержащий это слово, будет релевантным. Если у нас - ключевая фраза из нескольких слов, то при расчете релевантности будут учитываться только те пассажи, которые прошли кворум.

При этом если в одном пассаже ключевое слово будет повторять несколько раз (более 4), то это негативно отразиться на релевантности документа.

Углубляемся дальше. Пассаж пассажу рознь. Во-первых, пассаж может принадлежать различным зонам документа:

o title
o description
o keywords
o body

Во-вторых, пассаж, относящийся к body, может иметь различное форматирование – например, пассаж может быть заголовком < h1>. Также пассаж может быть включен в теги < script>, < noindex> - в этом случае пассаж проиндексирован не будет.

На seonews.ru уже публиковалось несколько экспериментов, посвященных изучению влияния принадлежности пассажа к определенной зоне документа. В результате были сделаны следующие выводы:

1. Description и keywords сайта не влияют на релевантность. При этом keywords вообще не индексируется.
2. Заголовки < h1>…< h6> немного повышают релевантность документа.
3. Title влияет на релевантность (Однако надо помнить, что из title индексируется только 15 первых слов!).

Кроме учета принадлежности пассажа, также учитывается е еще несколько факторов.

Расхожее мнение о том, что на релевантность влияет форматирование ключевых словом при помощи тегов , , и т.д. сейчас уже неактуально. Все это осталось в прошлом.

Гораздо важнее точность вхождения ключевой фразы в документ – точность с точки зрения морфологии и точность с точки зрения словопозиций.

В подтверждении несколько примеров.

Сделаем запрос «Ухта». Получим следующую выдачу:



Теперь изменим окончание и зададим запрос «Ухту». Мы видим и изменение в выдаче. На первом месте появился сайт, который имеет точное совпадение с запросом.



Аналогично можно поэкспериментировать со словопозициями.

Например, для запросов «Майкл Джаггер» и «Майкл &/(-1 5) Джаггер» выдача будет отличаться. Напомним, что конструкция «Майкл &/(-1 5) Джаггер» означает, что слово Джаггер должно находиться в районе 1 слова слева или 5 слов справа от слова «Майкл».

Оптимальной позицией слова «Джаггер» относительно слова «Майкл» будет позиция через одно слов справа, т.к. (5+(-1))/2=2. Эта формула для расчета оптимальной позиции в свое время тоже была предложена Минычем.

3. Рекомендации по оптимизации текста

Конечно, количественный расчет текстовой релевантности дело интересное и нужное, но для практических целей вполне подойдет ряд рекомендаций, соблюдая которые, вы напишете хороший (с т.зр. Яндекса) контент для сайта.

Главный принцип, которому нужно следовать – естественность текста. Не надо перегружать содержимое сайта ключевыми словами, тегами форматирования и прочим. Все должно быть в меру.

1. Прежде всего, уменьшите «тошноту» продвигаемой страницы.
2. Пишите релевантный title, не употребляя ни одного слова более одного раза.
3. Пишите description таким образом, чтобы если вдруг это описание попало в сниппет, оно привлекло пользователя, а не наоборот, оттолкнуло набором ключевых фраз.
4. Используйте заголовки ради удобства пользователя, а не для поисковой системы, которая на них не обращает внимания.
5. Используйте хотя бы одно точное вхождение (и с точки зрения морфологии и с точки зрения словопозиций) ключевой фразы.

4. Заключение

Итак, мы рассмотрели основные факторы, влияющие на текстовую релевантность.

Все факторы были проверены путем экспериментов. На настоящий момент информация является актуальной, но периодически Яндекс вносит изменения в алгоритм, так что нужно постоянно перепроверять действие выше озвученных факторов.

Конечно, сейчас основное значение придается ссылочному ранжированию, основные усилия направлены на покупку ссылок, оценку площадок, изучение правил составления текстов ссылок… Но про текст тоже не нужно забывать, т.к. сайт с правильно написанным контентом легче и, главное, дешевле продвинуть в топ.

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как мы увеличили число посетителей сайта на 89 000 человек и индекс качества на 30 единиц за 4 месяца
Никита Ширяев
4
комментария
0
читателей
Полный профиль
Никита Ширяев - Здравствуйте, 1. ТЗ на создание контента, это всего лишь одна из задач, которую мы делаем на проекте. 2. Получаемый текст обязательно проходит проверки на спам. 3. ТЗ на создание контента, это ориентир для авторов. 4. Как раз таки ТЗ помогает не переспамить в тексте, так как мы замеряем показатели ТОПа и ориентируемся на него. И опять приведу Вам скриншот, который подтверждает постоянный рост рейтинга домена. DR имеет сильную прогрессию.
Топ-10 SEO-курсов на 2024-2025 год для вашего роста
Виталий
1
комментарий
0
читателей
Полный профиль
Виталий - Вот тоже хороший курс для старта в сео -docs.google.com/document/d/1Qs7xVx4u3MZeuh8jf8s70NuIEYIuXVgtttaLMxADIsk/edit. Я много чего почерпнул для себя.
Авторы на RUTUBE теперь могут загружать видео в формате серий
Наиль г.Пенза
4
комментария
0
читателей
Полный профиль
Наиль г.Пенза - Ну что вы принимаете мою заявку? Или удалиться с "тихой грустью". А моих фото пока нет,они у меня удалились с Галереи, когда покупал себе смартфон. На фото пока моя дочь,сам я лежу в каридологие, сами понимаете какая у меня будет фотография
Рейтинги сайтов по отзывам в выдаче Яндекса: откуда берутся и как их улучшить
Romano
2
комментария
0
читателей
Полный профиль
Romano - дополнение: такие оценки не отображаются, но участвуют в общем рейтинге
Мастер-класс по использованию операторов Wordstat: повышаем эффективность сбора семантики
Старый сеошник
3
комментария
0
читателей
Полный профиль
Старый сеошник - Ну это же просто рекламная статья ради обратной ссылки)))) Куча воды по абсолютно базовой информации. Справка Яндекса описала все тоже самое, но в 8 раз короче yandex.ru/support2/wordstat/ru/content/operators Ок, про историю запроса там нет. Но это же просто в интерфейсе кнопка)
SEO-продвижение сайтов клиник
Дмитрий Севальнев
124
комментария
0
читателей
Полный профиль
Дмитрий Севальнев - Вау, мощно!
Настоящий квест: как увеличили трафик на сайт сети компьютерных клубов в 19,5 раз, а число конверсий в 42,5 раза
Владлен
1
комментарий
0
читателей
Полный профиль
Владлен - Интересно, есть только вопрос по ссылкам, в каком диапазоне стоимость ссылки была, ведь судя по скринам за 5 месяцев было куплено 10 ссылок
В какой поисковой системе продвигать финансовый сайт: выводы исследования Sape
Sape
3
комментария
0
читателей
Полный профиль
Sape - Добрый день! Спасибо за вашу обратную связь. Да, действительно, метрика DA не обновляется последние три месяца из-за проблем с поставщиком данных. Мы уже работаем над этим, в ближайшее время исправим. На данный момент для отбора сайтов в системе доступны десятки других метрик, которые обновляются регулярно. Касательно цен — с ними всё в порядке. Если у вас есть вопросы относительно ценообразования, мы готовы на них ответить. Благодарим, что поделились мнением. Мы всегда рады конструктивному диалогу!
Как вырастить трафик из блога в 9,7 раз за год. Кейс
Сергей Шабуров
1
комментарий
0
читателей
Полный профиль
Сергей Шабуров - Константин, здравствуйте! Лид-формы у нас прямо в статьях, так что трафик идет с самих статей.
Яндекс 360 запускает прямые продажи цифровых продуктов для бизнеса в Беларуси
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Найти женщину которая хочет меня по видео поговорим на откровенные темы если хочешь встретимся на выходных
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
389
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
124
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!