8 октрября 6:06
Автор: admin Рубрика: 100 дней Комментариев нет

Что такое TF-IDF

#SPEAKIN #day68 — Продвижение школы английского языка «SPEAKIN»

💡 TF-IDF

📌 Что это такое?

TF-IDF — алгоритм использующийся для расчета важности слова в документе = веса слова.

TF-IDF — это term frequency-inverse document frequency, по русский — частотность терминов-обратная частотность документов.

Формулу можно посмотреть в Википедии — https://ru.wikipedia.org/wiki/TF-IDF.

📌 Зачем это нужно знать?

Это простой и удобный способ оценить важность термина для какого-либо документа относительно всех остальных документов. Принцип такой — если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для данного документа.

📌 Чем хороша эта метрика?

1. Неважные слова, например, предлоги или междометия — получат очень низкий вес TF-IDF (потому что часто встречаются во всех документах), а важные слова получают высокий вес, т.к. редко встречаются.
2. Легко посчитать.

📌 Где можно применять эту метрику?

1. Формирование Title
2. Выявление важных слов и стоп-слов в документах
3. Использовать для улучшения работы классификаторов тональности
4. Анкоры ссылок
5. Формирование подзаголовков
и т.д.

📌 В некотором документе Х, содержащем 100 слов, есть слово «лингвист», которое встречается 5 раз. Таким образом, TF слова «лингвист» равняется 5 / 100 или 0.05. А теперь представим, что всего у нас есть 1000 документов (включая документ Х), и слово «лингвист» встречается в 10 из них. Таким образом, IDF слова «лингвист» равняется lg (1000/10) или 2. Таким образом, TF-IDF слова «лингвист» равняется 2 * 0.05 или 0.1.

Поисковая система не использует TF-IDF напрямую, но рассчитывает и применяет данный фактор в связке с другими алгоритмами.

❗ Итог: понимания алгоритмы поисковых систем ваши сайты будут выше.

Полезное:
1. Посмотреть веса слов актуальные на 2010 год согласно базе Яндекса можно посмотреть тут — http://tools.promosite.ru/old/weight.php .
2. https://ru.megaindex.com/a/textanalysis — текстовый анализатор
3. http://isemantic.ru — текстовый анализатор

Хочешь получать статьи этого блога на почту?
Новые статьи блога
Комментариев нет

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: