Token | Encyklopedia AI

Wprowadzenie

Token to podstawowa jednostka danych, na której pracują duże modele językowe (LLM). Wszystko, co model otrzymuje jako wejście i co generuje jako wyjście, jest podzielone na tokeny.

Co dokładnie jest tokenem?

Całe popularne słowa (np. „kot”, „dom”)
Pod-słowa (subwords) – np. „nie” + „zależnie”
Znaki interpunkcyjne i spacje
Części słów, cyfry, emoji
Tokeny specjalne (<bos>, <eos>, <pad>, <unk>)

Popularne metody tokenizacji

BPE (Byte Pair Encoding) – najczęściej używana
WordPiece – używana m.in. w BERT
SentencePiece – bardzo dobra dla języków bez spacji
Character-level – tokenizacja na pojedyncze znaki (rzadko używana)

Dlaczego tokeny są ważne?

Bezpośrednio wpływają na koszt użycia modelu (im więcej tokenów, tym drożej)
Określają maksymalny kontekst modelu (context window)
Wpływają na jakość rozumienia języka (zwłaszcza w językach innych niż angielski)
Duży wpływ na wydajność i zużycie pamięci

Przykłady tokenizacji

Angielskie zdanie „I love artificial intelligence” → zwykle 5–6 tokenów.
Polskie zdanie „Sztuczna inteligencja jest fascynująca” → zwykle więcej tokenów niż w języku angielskim.

Aktualny status (2026)

Nowoczesne modele mają słowniki liczące od 32 000 do nawet 500 000 tokenów. Trend idzie w stronę coraz inteligentniejszych tokenizerów, które lepiej radzą sobie z wielojęzycznością, kodem źródłowym i specjalistyczną terminologią. Tokenizacja pozostaje jednym z kluczowych elementów wpływających na ogólną wydajność LLM.