BM25 (nasycenie i długość)
Fundamenty teoretyczneZaawansowany algorytm rankingowy uwzględniający nasycenie terminów (kolejne powtórzenia słowa mają malejący efekt – jak sól w zupie: 2 szczypty dobrze, 20 szczypt niestrawne) i penalizację długości dokumentu (długi tekst nie jest automatycznie lepszy – liczy się gęstość rzadkich, specjalistycznych słów). BM25 jest standardem w retrieval leksykalnym używanym przez Google.
Pojawia się też jako metoda ekstrakcji treści w Crawl4AI – bloki tekstu porównywane z H1 metodą BM25. BM25 wyjaśnia, dlaczego keyword stuffing nie działa – po osiągnięciu progu nasycenia kolejne powtórzenia słowa kluczowego nie pomagają, a mogą zaszkodzić.
W praktyce zamiast powtarzać tę samą frazę 20 razy, użyj jej 3-5 razy i wypełnij resztę tekstu specjalistycznymi terminami z wysokim IDF – to daje lepszy sygnał niż brute-force powtórzenia.