Что такое TF-IDF
#SPEAKIN #day68 — Продвижение школы английского языка «SPEAKIN»
💡 TF-IDF
📌 Что это такое?
TF-IDF — алгоритм использующийся для расчета важности слова в документе = веса слова.
TF-IDF — это term frequency-inverse document frequency, по русский — частотность терминов-обратная частотность документов.
Формулу можно посмотреть в Википедии — https://ru.wikipedia.org/wiki/TF-IDF.
📌 Зачем это нужно знать?
Это простой и удобный способ оценить важность термина для какого-либо документа относительно всех остальных документов. Принцип такой — если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для данного документа.
📌 Чем хороша эта метрика?
1. Неважные слова, например, предлоги или междометия — получат очень низкий вес TF-IDF (потому что часто встречаются во всех документах), а важные слова получают высокий вес, т.к. редко встречаются.
2. Легко посчитать.
📌 Где можно применять эту метрику?
1. Формирование Title
2. Выявление важных слов и стоп-слов в документах
3. Использовать для улучшения работы классификаторов тональности
4. Анкоры ссылок
5. Формирование подзаголовков
и т.д.
📌 В некотором документе Х, содержащем 100 слов, есть слово «лингвист», которое встречается 5 раз. Таким образом, TF слова «лингвист» равняется 5 / 100 или 0.05. А теперь представим, что всего у нас есть 1000 документов (включая документ Х), и слово «лингвист» встречается в 10 из них. Таким образом, IDF слова «лингвист» равняется lg (1000/10) или 2. Таким образом, TF-IDF слова «лингвист» равняется 2 * 0.05 или 0.1.
Поисковая система не использует TF-IDF напрямую, но рассчитывает и применяет данный фактор в связке с другими алгоритмами.
❗ Итог: понимания алгоритмы поисковых систем ваши сайты будут выше.
Полезное:
1. Посмотреть веса слов актуальные на 2010 год согласно базе Яндекса можно посмотреть тут — http://tools.promosite.ru/old/weight.php .
2. https://ru.megaindex.com/a/textanalysis — текстовый анализатор
3. http://isemantic.ru — текстовый анализатор
Добавить комментарий