Odleglosc euklidesowa

Embeddingi

Odleglosc euklidesowa to miara odległości między dwoma punktami w przestrzeni wektorowej – im mniejsza, tym bardziej podobne znaczeniowo są dwa teksty.

Odległość euklidesowa to miara odległości między dwoma punktami w przestrzeni wektorowej, obliczana jako długość odcinka je łączącego – dosłownie 'w linii prostej'. Im mniejsza wartość, tym bardziej podobne znaczeniowo są dwa teksty.

W praktyce SEO jest rzadziej stosowana niż podobieństwo kosinusowe, ponieważ jest wrażliwa na długość wektorów – dwa wektory mogą wskazywać ten sam kierunek (semantycznie identyczne), ale mieć różną odległość euklidesową z powodu różnej wielkości. Dlatego w systemach embeddingowych standardem jest cosine similarity, która mierzy kąt między wektorami, ignorując ich długość. Odległość euklidesowa sprawdza się lepiej w przestrzeniach o małej liczbie wymiarów (np. po redukcji t-SNE do 2D/3D), gdzie wizualizujemy klastry.

W praktyce, jeśli używasz Gemini, który normalizuje wektory, różnica między obiema miarami jest minimalna, ale konwencja w branży to cosine similarity.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)