BM25/BM25F
#SPEAKIN #day71 — Продвижение школы английского языка «SPEAKIN»
💡 BM25/BM25F
📌 Алгоритм BM25 пришел на смену TF-IDF. Он более сложный и его суть заключается в оценке текста на странице, основываясь на количестве и месторасположении ключевых слов.
📌 BM25 — функция ранжирования документов по их релевантности поисковому запросу (на сколько часто встречается слово в каждом документе коллекции).
📌 Алгоритм BM25F (field=зона) учитывает не только текст, но и его отдельные участки или зоны:
1. Заголовок документа Title.
2. Текст документа, но с рядом модификаций:
— стандартный вариант
— с «угасающим» весом от начала документа (приоритет отдается вхождениям в начале текста)
— только по точным вхождениям
— по части слов из запроса (скажем, по парам слов)
3. По текстовым заголовкам и фрагментам с акцентами (strong и т.п.).
4. По текстам анкоров исходящих с документа ссылок (вероятно, внутренних).
5. По URL-адресу документа (вспоминаем про важность ЧПУ).
Каждый участок текста имеет свою значимость для ранжирования страницы.
📌 При анализе текстовой релевантности документа используются и другие формулы, например:
• Наличие/отсутствие точных вхождений многословного запроса в документе.
• Взаимное расположение слов из запроса (пар слов) в документе.
• Сочетание Title и текста документа.
• Соответствие языковой модели.
• и др.
❗ Итог: понимая алгоритм BM25F, становится понятно, почему нужно оптимизировать разные участки документа.
Полезное:
• https://ru.wikipedia.org/wiki/Okapi_BM25
• http://www.topexpert.pro/open-seo-lessons/lesson-21.h...
• https://habrahabr.ru/post/162937/
• https://yadi.sk/d/4tPbRAomgw5Qf
P.S. Сегодня поступил первый звонок от клиента из Самары, мужчина хотел записать ребенка на курсы английского языка. Трафик на сайт 3-5 человек.
Добавить комментарий