UMAP (kompresja wymiarow)
EmbeddingiUMAP (Uniform Manifold Approximation and Projection) to metoda redukcji wymiarowości embeddingów zachowująca najważniejsze relacje między punktami w przestrzeni wektorowej. Stosowana jest na przykład do kompresji z 768 do 5 wymiarów przy wizualizacji lub normalizacji danych.
W kontekście UMAP jest szczególnie potrzebna do normalizacji embeddingów Gemini z 768 wymiarami, które – w odróżnieniu od embeddingów 3072-wymiarowych – nie są znormalizowane automatycznie, co może zaburzać wyniki cosine similarity. UMAP daje lepsze zachowanie struktury danych niż PCA, szczególnie dla danych nieliniowych, ponieważ modeluje lokalne sąsiedztwa zamiast globalnych kierunków wariancji.
Na przykład po redukcji 768 wymiarów do 2D za pomocą UMAP klastry tematyczne (np. prawo spadkowe vs prawo pracy) są wyraźnie odseparowane na wizualizacji, podczas gdy PCA może je 'zlepić'. W praktyce używaj UMAP do wizualizacji i eksploracji danych, ale klasteryzację wykonuj na pełnych wymiarach – redukcja może zgubić subtelne różnice semantyczne.