TF-IDF (częstotliwość terminów)

Fundamenty teoretyczne

TF-IDF

TF-IDF (częstotliwość terminów) to algorytm mierzący ważność słowa w dokumencie: im częściej w danym dokumencie (TF) i rzadziej w całym zbiorze (IDF).

Na przykład słowo 'polisemia' ma wysoki IDF (rzadkie), więc daje silniejszy sygnał niż pospolite 'jest'. W AI Search nowe co-occurrences z wysokim IDF (np. 'SEO' + 'citation probability') dają lepszy score w rerankingu.

TF-IDF jest starszym algorytmem niż BM25, ale nadal daje użyteczne wyniki w analizie treści.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)