K-means

Klasteryzacja semantyczna

algorytm K-means

K-means to algorytm klasteryzacji dzielący punkty na k grup na podstawie odległości od centroidów – wymaga podania liczby klastrów z góry, ale daje czyste.

K-means to algorytm klasteryzacji dzielący zbiór punktów (embeddingów) na k grup, gdzie k jest podawane z góry. Algorytm iteracyjnie przypisuje każdy punkt do najbliższego centroidu (środka klastra) i przesuwa centroidy, aż osiągnie stabilność.

W pipeline klasteryzacji audyt semantyczny K-means jest głównym algorytmem podziału keywords na klastry tematyczne – skill klasteryzacja fraz używa go z embeddingami Gemini (task_type=CLUSTERING). Główną zaletą jest to, że daje czyste, równomierne klastry idealne do planowania treści.

Główną wadą jest to, że wymaga podania k z góry – złe k daje za szerokie lub za wąskie klastry. Dobór k wspiera Silhouette Score: testujesz k od 5 do 30 i wybierasz wartość z najwyższym wynikiem.

Na przykład 500 keywords + k=15 → 15 klastrów po ~33 frazy, każdy klaster = potencjalny artykuł.

W praktyce zacznij od k = liczba_keywords / 30 jako punkt wyjścia, przetestuj ±5 i wybierz k z najwyższym Silhouette Score.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)