Tokenizacja

Embeddingi
Tokenizacja to proces dzielenia tekstu na mniejsze jednostki (tokeny) przed przetworzeniem przez model AI – słowa, części słów lub znaki.

Tokenizacja to proces dzielenia tekstu na mniejsze jednostki zwane tokenami, zanim model AI będzie mógł go przetworzyć. Token może być słowem, częścią słowa lub nawet pojedynczym znakiem – na przykład słowo 'niesamowity' może zostać rozbite na 'nie' + 'samowity'.

Każdy model ma własny tokenizer, co wpływa na zużycie okna kontekstowego i koszty API – ten sam tekst może zużyć różną liczbę tokenów w zależności od modelu (np. GPT-4 vs Gemini). Zrozumienie tokenizacji jest kluczowe przy planowaniu chunkingu w RAG: jeśli chunk ma 500 słów, to w tokenach może to być 600-800 w zależności od języka i modelu. W języku polskim tokenizacja bywa mniej efektywna niż w angielskim, ponieważ polskie słowa z odmianami generują więcej tokenów.

W praktyce przed uruchomieniem pipeline'u sprawdź koszt tokenów dla swojego korpusu, żeby uniknąć niespodzianek budżetowych.

Źródło: AI Semantic SEO Expert, Robert Niechciał (sensai.io)