Wprowadzenie
Vocabulary Pruning (przycinanie słownika) i Vocabulary Compression to techniki optymalizacji modeli językowych polegające na redukcji liczby tokenów w tokenizerze. Typowy tokenizer LLM (np. Llama 3) ma 128k tokenów – wiele z nich jest rzadko używanych, co powoduje niepotrzebne zużycie pamięci i wolniejszą inferencję.
Dlaczego warto przycinać słownik?
- Zmniejszenie rozmiaru modelu i zużycia VRAM
- Przyspieszenie inferencji (mniej tokenów do przetwarzania)
- Obniżenie kosztów treningu i wdrożenia
- Lepsza wydajność na urządzeniach brzegowych
Główne metody Vocabulary Pruning
- Frequency-based Pruning – usuwanie tokenów, które pojawiają się bardzo rzadko w korpusie treningowym
- Importance-based Pruning – ocena wpływu każdego tokenu na jakość modelu (np. za pomocą gradientów lub perplexity)
- Semantic Clustering – grupowanie podobnych tokenów i zastępowanie ich jednym reprezentantem
- Merge & Prune – łączenie rzadkich tokenów w nowe, bardziej efektywne
- Tokenizer Retraining – trenowanie nowego, mniejszego tokenizera od zera na danym domenowym korpusie
Przykłady w praktyce (2026)
- Modele zoptymalizowane pod mobile (np. Gemma-2B, Phi-3-mini) często używają przyciętych słowników (32k–64k zamiast 128k)
- Specjalistyczne modele domenowe (medyczne, prawne, kodowanie) mocno kompresują vocabulary
- Techniki takie jak Token Merging i Vocabulary Adaptation są coraz popularniejsze
Trade-offy
- Zalety: mniejszy rozmiar, szybsza inferencja, niższe koszty
- Wady: potencjalna strata jakości na rzadkich słowach, nazwach własnych, kodach i językach niskoresursowych
Powiązane pojęcia
Tokenizer • BPE • SentencePiece • Model Compression • Knowledge Distillation • Pruning • Quantization • Domain Adaptation • Efficient Inference