Wprowadzenie
Quantization (kwantyzacja) to technika optymalizacji modeli AI polegająca na zmniejszeniu precyzji reprezentacji liczbowej wag, aktywacji i gradientów. Dzięki temu model zajmuje znacznie mniej pamięci i działa szybciej na urządzeniach konsumenckich oraz serwerach.
Dlaczego Quantization jest ważna?
Współczesne modele językowe mają dziesiątki lub setki miliardów parametrów. Model w precyzji float32 (4 bajty na parametr) jest ogromny i drogi w inferencji. Quantization pozwala uruchamiać np. Llama 3 70B na jednej karcie graficznej konsumenckiej.
Typy Quantization
- Post-Training Quantization (PTQ) – kwantyzacja po treningu (najpopularniejsza)
- Quantization-Aware Training (QAT) – kwantyzacja podczas treningu (najwyższa jakość)
- Dynamic Quantization – kwantyzacja w czasie rzeczywistym
- Static Quantization – stałe skalowanie przed inferencją
Poziomy precyzji
- FP16 / BF16 – półprecyzja (najmniejsza strata jakości)
- INT8 – 8-bitowa kwantyzacja (bardzo popularna)
- INT4 / 4-bit – GPTQ, AWQ, BitsAndBytes 4-bit
- INT3 / 2-bit / 1.58-bit – ekstremalna kompresja (np. BitNet, ternary models)
Najpopularniejsze metody (2026)
- GPTQ – jedna z najskuteczniejszych metod 4-bitowych
- AWQ (Activation-aware Weight Quantization) – lepsza jakość przy niskiej precyzji
- BitsAndBytes (NF4) – najpopularniejsza w Hugging Face
- GGUF + llama.cpp – standard w lokalnym uruchamianiu modeli
- SmoothQuant, SmoothQuant+
Zalety Quantization
- Zmniejszenie rozmiaru modelu nawet 4–8×
- Znacznie wyższa prędkość inferencji (2–4× szybciej)
- Niższe zużycie VRAM i energii
- Możliwość uruchamiania dużych modeli na laptopach i telefonach
- Taniej w chmurze (mniej GPU)
Wady i kompromisy
- Nieznaczna strata jakości (perplexity / accuracy)
- Trudniejsze dalsze fine-tuning (szczególnie przy bardzo niskiej precyzji)
- Niektóre operacje (np. attention) mogą wymagać dekwantyzacji
Aktualny status (2026)
Quantization stała się standardem w branży. Prawie wszystkie modele na Hugging Face są dostępne w wersjach 4-bit i 8-bit. Techniki takie jak AWQ, GPTQ i nowe metody 1.58-bit (BitNet b1.58) pozwalają uruchamiać modele na poziomie bliskim oryginałowi przy ułamku zużycia zasobów. W erze on-device AI i edge computing kwantyzacja jest kluczowym elementem demokratyzacji dostępu do potężnych modeli językowych.