Noise Cleaning

Pipeline'y audytu semantycznego

czyszczenie szumu

Noise Cleaning to proces usuwania szumu z danych przed analizą – filtrowanie nieistotnych keywords, outlierów i duplikatów ze zbioru danych SEO.

W pipeline'u audytu semantycznego noise cleaning odbywa się na kilku etapach: po zbieraniu keywords (usunięcie branded queries, nonsensów, obcojęzycznych fraz), po generowaniu embeddingów (identyfikacja outlierów daleko od centroidu), po klasteryzacji (usunięcie klastrów z 1-2 elementami).

Jakość analizy zależy od jakości danych – garbage in, garbage out. Noise w danych SEO to: branded keywords konkurencji, zapytania w obcym języku, spamerskie frazy, duplikaty leksykalne ('zachowek' i 'zachowek ' ze spacją). Automatyczne noise cleaning obejmuje: deduplikację, lowercasing, usuwanie fraz z wolumenem 0, filtrowanie po języku.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)