SEMANTIC_SIMILARITY
EmbeddingiSEMANTIC_SIMILARITY to typ zadania embeddingowego optymalizujący wektory pod mierzenie podobieństwa semantycznego między parami tekstów. W SEO ma dwa kluczowe zastosowania: detekcję duplikatów (similarity bliska 1.0 – np. strony paginacji z identyczną treścią) i wykrywanie kanibalizacji (similarity 0.9-0.99 – np. 'Co to jest SEO' vs 'Podstawy SEO').
Również przydatny przy budowaniu linkowania wewnętrznego opartego na nearest neighbors, gdzie szukamy stron o cosine similarity powyżej 0.75-0.8. W odróżnieniu od CLUSTERING, ten task type porównuje pary tekstów, a nie grupuje je w klastry. Wybierając SEMANTIC_SIMILARITY do audytu serwisu, możesz w kilka minut przeskanować 10 000 URL-i i znaleźć wszystkie duplikaty i kanibalizacje, co ręcznie zajęłoby tygodnie.
W praktyce zacznij od porównywania tytułów stron (title tags) – są krótkie i dobrze oddają temat.