Tokenizacja
EmbeddingiTokenizacja to proces dzielenia tekstu na mniejsze jednostki zwane tokenami, zanim model AI będzie mógł go przetworzyć. Token może być słowem, częścią słowa lub nawet pojedynczym znakiem – na przykład słowo 'niesamowity' może zostać rozbite na 'nie' + 'samowity'.
Każdy model ma własny tokenizer, co wpływa na zużycie okna kontekstowego i koszty API – ten sam tekst może zużyć różną liczbę tokenów w zależności od modelu (np. GPT-4 vs Gemini). Zrozumienie tokenizacji jest kluczowe przy planowaniu chunkingu w RAG: jeśli chunk ma 500 słów, to w tokenach może to być 600-800 w zależności od języka i modelu. W języku polskim tokenizacja bywa mniej efektywna niż w angielskim, ponieważ polskie słowa z odmianami generują więcej tokenów.
W praktyce przed uruchomieniem pipeline'u sprawdź koszt tokenów dla swojego korpusu, żeby uniknąć niespodzianek budżetowych.