K-means
Klasteryzacja semantycznaK-means to algorytm klasteryzacji dzielący zbiór punktów (embeddingów) na k grup, gdzie k jest podawane z góry. Algorytm iteracyjnie przypisuje każdy punkt do najbliższego centroidu (środka klastra) i przesuwa centroidy, aż osiągnie stabilność.
W pipeline klasteryzacji audyt semantyczny K-means jest głównym algorytmem podziału keywords na klastry tematyczne – skill klasteryzacja fraz używa go z embeddingami Gemini (task_type=CLUSTERING). Główną zaletą jest to, że daje czyste, równomierne klastry idealne do planowania treści.
Główną wadą jest to, że wymaga podania k z góry – złe k daje za szerokie lub za wąskie klastry. Dobór k wspiera Silhouette Score: testujesz k od 5 do 30 i wybierasz wartość z najwyższym wynikiem.
Na przykład 500 keywords + k=15 → 15 klastrów po ~33 frazy, każdy klaster = potencjalny artykuł.
W praktyce zacznij od k = liczba_keywords / 30 jako punkt wyjścia, przetestuj ±5 i wybierz k z najwyższym Silhouette Score.