Klasteryzacja fraz (embeddingi + K-means)
Klasteryzacja semantycznaKlasteryzacja fraz to drugi etap w pipeline klasteryzacji, grupujący słowa kluczowe w klastry za pomocą embeddingów (Gemini z task_type=CLUSTERING) i algorytmu K-means. Automatycznie dobiera optymalną liczbę klastrów k na podstawie Silhouette Score – testuje k od 2 do 20 i wybiera wartość z najwyższym wynikiem, eliminując zgadywanie 'ile klastrów powinienem mieć'. Zasada 'LLM do rozumowania, Python do obliczeń' jest tu kluczowa: klasteryzacja 500 keywords embeddingami + K-means w Pythonie jest setki razy tańsza niż przez LLM i daje deterministyczne (powtarzalne) wyniki. Wynikiem jest plik JSON z przypisaniem każdego keyword do klastra, gotowy do następnego kroku – nazywanie klastrów.
W praktyce, jeśli Silhouette Score jest niski (poniżej 0.3), spróbuj innego modelu embeddingowego lub sprawdź, czy pula keywords nie jest zbyt wąska tematycznie.