Wprowadzenie
Vocabulary w kontekście dużych modeli językowych (LLM) to zbiór wszystkich tokenów, na których model został wytrenowany. Jest to jeden z najważniejszych hiperparametrów modelu – określa, z ilu „słów” lub pod-słów model potrafi korzystać.
Co zawiera Vocabulary?
- Całe popularne słowa
- Pod-słowa (subwords) – np. „nie” + „zależnie”
- Znaki specjalne i tokeny kontrolne (<bos>, <eos>, <pad> itp.)
- Znaki interpunkcyjne i cyfry
- Tokeny rzadkich słów lub neologizmów
Popularne rozmiary Vocabulary
- GPT-3 / GPT-4 – ~100 000 tokenów
- Llama 2 / Llama 3 – 32 000 – 128 000 tokenów
- Mistral / Mixtral – 32 000 – 32 768 tokenów
- Gemma 2 – 256 000 tokenów
- Claude 3 – ponad 200 000 tokenów
Znaczenie dużego Vocabulary
- Lepsza obsługa rzadkich słów i nazw własnych
- Mniejsza liczba tokenów na tekst (niższe koszty i szybsze przetwarzanie)
- Lepsza wydajność w językach innych niż angielski
- Możliwość reprezentacji emoji, kodu źródłowego i znaków specjalnych
Tokenizer a Vocabulary
Vocabulary jest ściśle powiązane z używanym tokenizorem. Najpopularniejsze algorytmy to:
- BPE (Byte Pair Encoding)
- WordPiece
- SentencePiece (unigram)
Aktualny status (2026)
Trend idzie w stronę coraz większych słowników (nawet 500k+ tokenów). Nowoczesne modele dążą do optymalnego kompromisu między rozmiarem vocabulary a efektywnością – zbyt duże słownictwo zwiększa rozmiar embeddingów i zużycie pamięci, zbyt małe powoduje nadmierne dzielenie słów na tokeny.