Quantization | Encyklopedia AI

Wprowadzenie

Quantization (kwantyzacja) to technika optymalizacji modeli AI polegająca na zmniejszeniu precyzji reprezentacji liczbowej wag, aktywacji i gradientów. Dzięki temu model zajmuje znacznie mniej pamięci i działa szybciej na urządzeniach konsumenckich oraz serwerach.

Dlaczego Quantization jest ważna?

Współczesne modele językowe mają dziesiątki lub setki miliardów parametrów. Model w precyzji float32 (4 bajty na parametr) jest ogromny i drogi w inferencji. Quantization pozwala uruchamiać np. Llama 3 70B na jednej karcie graficznej konsumenckiej.

Typy Quantization

Post-Training Quantization (PTQ) – kwantyzacja po treningu (najpopularniejsza)
Quantization-Aware Training (QAT) – kwantyzacja podczas treningu (najwyższa jakość)
Dynamic Quantization – kwantyzacja w czasie rzeczywistym
Static Quantization – stałe skalowanie przed inferencją

Poziomy precyzji

FP16 / BF16 – półprecyzja (najmniejsza strata jakości)
INT8 – 8-bitowa kwantyzacja (bardzo popularna)
INT4 / 4-bit – GPTQ, AWQ, BitsAndBytes 4-bit
INT3 / 2-bit / 1.58-bit – ekstremalna kompresja (np. BitNet, ternary models)

Najpopularniejsze metody (2026)

GPTQ – jedna z najskuteczniejszych metod 4-bitowych
AWQ (Activation-aware Weight Quantization) – lepsza jakość przy niskiej precyzji
BitsAndBytes (NF4) – najpopularniejsza w Hugging Face
GGUF + llama.cpp – standard w lokalnym uruchamianiu modeli
SmoothQuant, SmoothQuant+

Zalety Quantization

Zmniejszenie rozmiaru modelu nawet 4–8×
Znacznie wyższa prędkość inferencji (2–4× szybciej)
Niższe zużycie VRAM i energii
Możliwość uruchamiania dużych modeli na laptopach i telefonach
Taniej w chmurze (mniej GPU)

Wady i kompromisy

Nieznaczna strata jakości (perplexity / accuracy)
Trudniejsze dalsze fine-tuning (szczególnie przy bardzo niskiej precyzji)
Niektóre operacje (np. attention) mogą wymagać dekwantyzacji

Aktualny status (2026)

Quantization stała się standardem w branży. Prawie wszystkie modele na Hugging Face są dostępne w wersjach 4-bit i 8-bit. Techniki takie jak AWQ, GPTQ i nowe metody 1.58-bit (BitNet b1.58) pozwalają uruchamiać modele na poziomie bliskim oryginałowi przy ułamku zużycia zasobów. W erze on-device AI i edge computing kwantyzacja jest kluczowym elementem demokratyzacji dostępu do potężnych modeli językowych.