Persystencja pipelineu
Pipeline'y audytu semantycznegoPersystencja pipeline'u to praktyka zapisywania wyniku każdego kroku pipeline'u do pliku (CSV, JSON, Markdown), zamiast przechowywania go tylko w pamięci. Umożliwia wznowienie po awarii (wznawialność), debugowanie (sprawdzenie, co wyprodukował każdy krok), audytowanie (śledzenie, skąd wzięły się wyniki) i modularność (wymiana jednego kroku bez powtarzania reszty).
W audycie semantycznym persystencja oznacza, że krok 1 zapisuje keywords.csv → krok 2 czyta keywords.csv i zapisuje embeddings.csv → krok 3 czyta embeddings.csv i zapisuje clusters.csv itd. Jeśli pipeline wywali się na kroku 4, kroki 1-3 mają wyniki na dysku. Persystencja to fundamentalna zasada inżynierii pipeline'ów – pipeline bez persystencji to pipeline, który musisz uruchamiać od zera po każdym błędzie.
Na przykład pipeline 6 kroków z 4-godzinnym czasem wykonania → błąd na kroku 5 → z persystencją wznowienie od kroku 5 (10 min), bez persystencji od zera (4 h).
W praktyce konwencja nazewnictwa plików: XX_krok_nazwa.csv (01_keywords.csv, 02_embeddings.csv) – numeracja zapewnia czytelną kolejność.