Token

Wprowadzenie

Token to podstawowa jednostka danych, na której pracują duże modele językowe (LLM). Wszystko, co model otrzymuje jako wejście i co generuje jako wyjście, jest podzielone na tokeny.

Co dokładnie jest tokenem?

  • Całe popularne słowa (np. „kot”, „dom”)
  • Pod-słowa (subwords) – np. „nie” + „zależnie”
  • Znaki interpunkcyjne i spacje
  • Części słów, cyfry, emoji
  • Tokeny specjalne (<bos>, <eos>, <pad>, <unk>)

Popularne metody tokenizacji

  • BPE (Byte Pair Encoding) – najczęściej używana
  • WordPiece – używana m.in. w BERT
  • SentencePiece – bardzo dobra dla języków bez spacji
  • Character-level – tokenizacja na pojedyncze znaki (rzadko używana)

Dlaczego tokeny są ważne?

  • Bezpośrednio wpływają na koszt użycia modelu (im więcej tokenów, tym drożej)
  • Określają maksymalny kontekst modelu (context window)
  • Wpływają na jakość rozumienia języka (zwłaszcza w językach innych niż angielski)
  • Duży wpływ na wydajność i zużycie pamięci

Przykłady tokenizacji

Angielskie zdanie „I love artificial intelligence” → zwykle 5–6 tokenów.
Polskie zdanie „Sztuczna inteligencja jest fascynująca” → zwykle więcej tokenów niż w języku angielskim.

Aktualny status (2026)

Nowoczesne modele mają słowniki liczące od 32 000 do nawet 500 000 tokenów. Trend idzie w stronę coraz inteligentniejszych tokenizerów, które lepiej radzą sobie z wielojęzycznością, kodem źródłowym i specjalistyczną terminologią. Tokenizacja pozostaje jednym z kluczowych elementów wpływających na ogólną wydajność LLM.