BM25 (nasycenie i długość)

Fundamenty teoretyczne
BM25BM25 ekstrakcja treści
BM25 (nasycenie i długość) to zaawansowany algorytm rankingowy uwzględniający nasycenie terminów (kolejne powtórzenia mają malejący efekt) i długość.

Zaawansowany algorytm rankingowy uwzględniający nasycenie terminów (kolejne powtórzenia słowa mają malejący efekt – jak sól w zupie: 2 szczypty dobrze, 20 szczypt niestrawne) i penalizację długości dokumentu (długi tekst nie jest automatycznie lepszy – liczy się gęstość rzadkich, specjalistycznych słów). BM25 jest standardem w retrieval leksykalnym używanym przez Google.

Pojawia się też jako metoda ekstrakcji treści w Crawl4AI – bloki tekstu porównywane z H1 metodą BM25. BM25 wyjaśnia, dlaczego keyword stuffing nie działa – po osiągnięciu progu nasycenia kolejne powtórzenia słowa kluczowego nie pomagają, a mogą zaszkodzić.

W praktyce zamiast powtarzać tę samą frazę 20 razy, użyj jej 3-5 razy i wypełnij resztę tekstu specjalistycznymi terminami z wysokim IDF – to daje lepszy sygnał niż brute-force powtórzenia.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)