17
мая
2:19
Сколько документов в индексе Яндекса
Всем привет.
Начал рассчитывать BM25, встал вопрос, как узнать сколько документов хранится в индексе Яндекса.
Для определения решил использовать документированные операторы Яндекса, нашел подходящий «Поиск по страницам на заданном языке».
На текущим момент Яндекс поддерживает 9 языков:
- русский (ru)
- украинский (uk)
- белорусский (be)
- английский (en)
- французский (fr)
- немецкий (de)
- казахский (kk)
- татарский (tt)
- турецкий (tr)
Поэтому,используем следующий запрос:
lang:ru | lang:en | lang:fr | lang:de | lang:uk | lang:be | lang:tt | lang:kk | lang:tr
Итого Яндекс знает 11538 млн. = 11 538 000 000 документов.
При проверке по каждому языку получаем следующие данные:
- русский (ru) — 3060 млн.
- украинский (uk) — 92 млн.
- белорусский (be) — 5 млн.
- английский (en) — 5888 млн.
- французский (fr) — 97 млн.
- немецкий (de) — 310 млн.
- казахский (kk) — 8 млн.
- татарский (tt) — 2 млн.
- турецкий (tr) — 63 млн.
Итого, ручной перебор дал 9525 млн. = 9 525 000 000 документов.
Теперь вы знаете как можно узнать количество всех документов хранящихся в индексе.
Добавить комментарий