Vocabulary Pruning & Compression | Redukcja Słownika w Modelach Językowych

Wprowadzenie

Vocabulary Pruning (przycinanie słownika) i Vocabulary Compression to techniki optymalizacji modeli językowych polegające na redukcji liczby tokenów w tokenizerze. Typowy tokenizer LLM (np. Llama 3) ma 128k tokenów – wiele z nich jest rzadko używanych, co powoduje niepotrzebne zużycie pamięci i wolniejszą inferencję.

Dlaczego warto przycinać słownik?

Zmniejszenie rozmiaru modelu i zużycia VRAM
Przyspieszenie inferencji (mniej tokenów do przetwarzania)
Obniżenie kosztów treningu i wdrożenia
Lepsza wydajność na urządzeniach brzegowych

Główne metody Vocabulary Pruning

Frequency-based Pruning – usuwanie tokenów, które pojawiają się bardzo rzadko w korpusie treningowym
Importance-based Pruning – ocena wpływu każdego tokenu na jakość modelu (np. za pomocą gradientów lub perplexity)
Semantic Clustering – grupowanie podobnych tokenów i zastępowanie ich jednym reprezentantem
Merge & Prune – łączenie rzadkich tokenów w nowe, bardziej efektywne
Tokenizer Retraining – trenowanie nowego, mniejszego tokenizera od zera na danym domenowym korpusie

Przykłady w praktyce (2026)

Modele zoptymalizowane pod mobile (np. Gemma-2B, Phi-3-mini) często używają przyciętych słowników (32k–64k zamiast 128k)
Specjalistyczne modele domenowe (medyczne, prawne, kodowanie) mocno kompresują vocabulary
Techniki takie jak Token Merging i Vocabulary Adaptation są coraz popularniejsze

Trade-offy

Zalety: mniejszy rozmiar, szybsza inferencja, niższe koszty
Wady: potencjalna strata jakości na rzadkich słowach, nazwach własnych, kodach i językach niskoresursowych

Powiązane pojęcia

Vocabulary→Model Pruning→Controlled Vocabulary→Channel Pruning→Data Pruning At Scale→Deep Pruning→Depgraph Pruning→Detic Open Vocabulary→Intelligent Pruning AI→