Nearest Neighbors (najblizsi sasiedzi)
EmbeddingiNearest Neighbors (kNN – k Nearest Neighbors) to algorytm wyszukiwania najbliższych punktów w przestrzeni wektorowej, wykorzystywany do znajdowania semantycznie podobnych dokumentów na podstawie embeddingów. Dla każdego wektora (np. tytułu strony) algorytm znajduje k najbliższych sąsiadów (np. 10 najbardziej podobnych stron) mierząc odległość kosinusową.
W SEO ma trzy główne zastosowania: linkowanie wewnętrzne (10 najbliższych stron = kandydaci do podlinkowania), system rekomendacji ('powiązane artykuły') i detekcja duplikatów (sąsiedzi z similarity > 0.99). Algorytm działa w bazach wektorowych (Qdrant, Supabase z pgvector) lub w pamięci Pythona (scikit-learn). Approximate Nearest Neighbors (ANN) to szybsza wersja dla dużych zbiorów, poświęcająca minimalną precyzję na rzecz szybkości.
W praktyce zacznij od k=10 sąsiadów z progiem similarity > 0.8 – to daje rozsądną liczbę kandydatów do linkowania bez zalewania szumem.