Embeddingi cache (historyczne)

Embeddingi

Embeddingi cachecache embeddingów

Embeddingi cache (historyczne) to mechanizm zapisywania obliczonych embeddingów w katalogu data/embeddings – jeśli embedding frazy już istnieje.

Embeddingi cache to mechanizm zapisywania obliczonych embeddingów w katalogu data/embeddings, zapobiegający powtórnemu wysyłaniu zapytań do API dla fraz, które już zostały zwektoryzowane. Jeśli embedding frazy 'baseny ogrodowe' już istnieje w cache, pipeline pomija zapytanie API i używa zapisanego wektora – oszczędzając koszty i czas.

W pipeline klasteryzacji cache jest szczególnie ważny, bo ta sama fraza może pojawiać się w wielu cyklach rozbudowywania topical mapy. Format cache: plik JSON lub CSV z mapowaniem fraza do wektora. Cache jest persystentny (na dysku, nie w pamięci), więc przetrwa restart sesji i zmianę notebooka.

Istotna zasada: cache jest ważny TYLKO przy tym samym modelu embeddingowym i tym samym task_type – zmiana modelu lub task_type wymaga ponownego wygenerowania. W praktyce zaimplementuj cache od pierwszego dnia pracy z embeddingami – przy regularnym używaniu pipeline'ów oszczędności sięgają 50-80% kosztów API.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)