Vocabulary Pruning & Compression

Wprowadzenie

Vocabulary Pruning (przycinanie słownika) i Vocabulary Compression to techniki optymalizacji modeli językowych polegające na redukcji liczby tokenów w tokenizerze. Typowy tokenizer LLM (np. Llama 3) ma 128k tokenów – wiele z nich jest rzadko używanych, co powoduje niepotrzebne zużycie pamięci i wolniejszą inferencję.

Dlaczego warto przycinać słownik?

  • Zmniejszenie rozmiaru modelu i zużycia VRAM
  • Przyspieszenie inferencji (mniej tokenów do przetwarzania)
  • Obniżenie kosztów treningu i wdrożenia
  • Lepsza wydajność na urządzeniach brzegowych

Główne metody Vocabulary Pruning

  • Frequency-based Pruning – usuwanie tokenów, które pojawiają się bardzo rzadko w korpusie treningowym
  • Importance-based Pruning – ocena wpływu każdego tokenu na jakość modelu (np. za pomocą gradientów lub perplexity)
  • Semantic Clustering – grupowanie podobnych tokenów i zastępowanie ich jednym reprezentantem
  • Merge & Prune – łączenie rzadkich tokenów w nowe, bardziej efektywne
  • Tokenizer Retraining – trenowanie nowego, mniejszego tokenizera od zera na danym domenowym korpusie

Przykłady w praktyce (2026)

  • Modele zoptymalizowane pod mobile (np. Gemma-2B, Phi-3-mini) często używają przyciętych słowników (32k–64k zamiast 128k)
  • Specjalistyczne modele domenowe (medyczne, prawne, kodowanie) mocno kompresują vocabulary
  • Techniki takie jak Token Merging i Vocabulary Adaptation są coraz popularniejsze

Trade-offy

  • Zalety: mniejszy rozmiar, szybsza inferencja, niższe koszty
  • Wady: potencjalna strata jakości na rzadkich słowach, nazwach własnych, kodach i językach niskoresursowych

Powiązane pojęcia

Tokenizer • BPE • SentencePiece • Model Compression • Knowledge Distillation • Pruning • Quantization • Domain Adaptation • Efficient Inference