Vocabulary (LLM) | Encyklopedia AI

Wprowadzenie

Vocabulary w kontekście dużych modeli językowych (LLM) to zbiór wszystkich tokenów, na których model został wytrenowany. Jest to jeden z najważniejszych hiperparametrów modelu – określa, z ilu „słów” lub pod-słów model potrafi korzystać.

Co zawiera Vocabulary?

Całe popularne słowa
Pod-słowa (subwords) – np. „nie” + „zależnie”
Znaki specjalne i tokeny kontrolne (<bos>, <eos>, <pad> itp.)
Znaki interpunkcyjne i cyfry
Tokeny rzadkich słów lub neologizmów

Popularne rozmiary Vocabulary

GPT-3 / GPT-4 – ~100 000 tokenów
Llama 2 / Llama 3 – 32 000 – 128 000 tokenów
Mistral / Mixtral – 32 000 – 32 768 tokenów
Gemma 2 – 256 000 tokenów
Claude 3 – ponad 200 000 tokenów

Znaczenie dużego Vocabulary

Lepsza obsługa rzadkich słów i nazw własnych
Mniejsza liczba tokenów na tekst (niższe koszty i szybsze przetwarzanie)
Lepsza wydajność w językach innych niż angielski
Możliwość reprezentacji emoji, kodu źródłowego i znaków specjalnych

Tokenizer a Vocabulary

Vocabulary jest ściśle powiązane z używanym tokenizorem. Najpopularniejsze algorytmy to:

BPE (Byte Pair Encoding)
WordPiece
SentencePiece (unigram)

Aktualny status (2026)