DBSCAN

Klasteryzacja semantyczna

Density-Based Spatial Clustering

DBSCAN to algorytm klasteryzacji oparty na gęstości punktów – automatycznie wykrywa liczbę klastrów i identyfikuje outliery.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) to algorytm klasteryzacji oparty na gęstości punktów w przestrzeni wektorowej, który w odróżnieniu od K-means automatycznie wykrywa liczbę klastrów i identyfikuje outliery (punkty nienależące do żadnego klastra). Działa na dwóch parametrach: eps (maksymalna odległość między dwoma punktami w tym samym klastrze) i min_samples (minimalna liczba punktów tworzących klaster).

Główną zaletą jest to, że nie musisz z góry określać liczby klastrów (k), a outliery są jawnie oznaczane etykietą -1. Główną wadą jest to, że dobór eps jest trudny i wymaga eksperymentowania – zbyt mały eps tworzy za dużo małych klastrów, zbyt duży zlewa wszystko w jeden. W SEO DBSCAN sprawdza się przy eksploracyjnej analizie danych, gdy nie wiesz ile tematów jest w zbiorze keywords.

Na przykład 500 keywords → DBSCAN → 12 klastrów + 45 outlierów (frazy nienależące do żadnego tematu). W praktyce użyj DBSCAN do pierwszej eksploracji, a K-means do ostatecznej klasteryzacji – DBSCAN pokaże ile klastrów istnieje, K-means czysto je podzieli.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)