Vocabulary (w LLM)

Wprowadzenie

Vocabulary w kontekście dużych modeli językowych (LLM) to zbiór wszystkich tokenów, na których model został wytrenowany. Jest to jeden z najważniejszych hiperparametrów modelu – określa, z ilu „słów” lub pod-słów model potrafi korzystać.

Co zawiera Vocabulary?

  • Całe popularne słowa
  • Pod-słowa (subwords) – np. „nie” + „zależnie”
  • Znaki specjalne i tokeny kontrolne (<bos>, <eos>, <pad> itp.)
  • Znaki interpunkcyjne i cyfry
  • Tokeny rzadkich słów lub neologizmów

Popularne rozmiary Vocabulary

  • GPT-3 / GPT-4 – ~100 000 tokenów
  • Llama 2 / Llama 3 – 32 000 – 128 000 tokenów
  • Mistral / Mixtral – 32 000 – 32 768 tokenów
  • Gemma 2 – 256 000 tokenów
  • Claude 3 – ponad 200 000 tokenów

Znaczenie dużego Vocabulary

  • Lepsza obsługa rzadkich słów i nazw własnych
  • Mniejsza liczba tokenów na tekst (niższe koszty i szybsze przetwarzanie)
  • Lepsza wydajność w językach innych niż angielski
  • Możliwość reprezentacji emoji, kodu źródłowego i znaków specjalnych

Tokenizer a Vocabulary

Vocabulary jest ściśle powiązane z używanym tokenizorem. Najpopularniejsze algorytmy to:

  • BPE (Byte Pair Encoding)
  • WordPiece
  • SentencePiece (unigram)

Aktualny status (2026)

Trend idzie w stronę coraz większych słowników (nawet 500k+ tokenów). Nowoczesne modele dążą do optymalnego kompromisu między rozmiarem vocabulary a efektywnością – zbyt duże słownictwo zwiększa rozmiar embeddingów i zużycie pamięci, zbyt małe powoduje nadmierne dzielenie słów na tokeny.