Wprowadzenie
Token to podstawowa jednostka danych, na której pracują duże modele językowe (LLM). Wszystko, co model otrzymuje jako wejście i co generuje jako wyjście, jest podzielone na tokeny.
Co dokładnie jest tokenem?
- Całe popularne słowa (np. „kot”, „dom”)
- Pod-słowa (subwords) – np. „nie” + „zależnie”
- Znaki interpunkcyjne i spacje
- Części słów, cyfry, emoji
- Tokeny specjalne (<bos>, <eos>, <pad>, <unk>)
Popularne metody tokenizacji
- BPE (Byte Pair Encoding) – najczęściej używana
- WordPiece – używana m.in. w BERT
- SentencePiece – bardzo dobra dla języków bez spacji
- Character-level – tokenizacja na pojedyncze znaki (rzadko używana)
Dlaczego tokeny są ważne?
- Bezpośrednio wpływają na koszt użycia modelu (im więcej tokenów, tym drożej)
- Określają maksymalny kontekst modelu (context window)
- Wpływają na jakość rozumienia języka (zwłaszcza w językach innych niż angielski)
- Duży wpływ na wydajność i zużycie pamięci
Przykłady tokenizacji
Angielskie zdanie „I love artificial intelligence” → zwykle 5–6 tokenów.
Polskie zdanie „Sztuczna inteligencja jest fascynująca” → zwykle więcej tokenów niż w języku angielskim.
Aktualny status (2026)
Nowoczesne modele mają słowniki liczące od 32 000 do nawet 500 000 tokenów. Trend idzie w stronę coraz inteligentniejszych tokenizerów, które lepiej radzą sobie z wielojęzycznością, kodem źródłowym i specjalistyczną terminologią. Tokenizacja pozostaje jednym z kluczowych elementów wpływających na ogólną wydajność LLM.