Quantization

Wprowadzenie

Quantization (kwantyzacja) to technika optymalizacji modeli AI polegająca na zmniejszeniu precyzji reprezentacji liczbowej wag, aktywacji i gradientów. Dzięki temu model zajmuje znacznie mniej pamięci i działa szybciej na urządzeniach konsumenckich oraz serwerach.

Dlaczego Quantization jest ważna?

Współczesne modele językowe mają dziesiątki lub setki miliardów parametrów. Model w precyzji float32 (4 bajty na parametr) jest ogromny i drogi w inferencji. Quantization pozwala uruchamiać np. Llama 3 70B na jednej karcie graficznej konsumenckiej.

Typy Quantization

  • Post-Training Quantization (PTQ) – kwantyzacja po treningu (najpopularniejsza)
  • Quantization-Aware Training (QAT) – kwantyzacja podczas treningu (najwyższa jakość)
  • Dynamic Quantization – kwantyzacja w czasie rzeczywistym
  • Static Quantization – stałe skalowanie przed inferencją

Poziomy precyzji

  • FP16 / BF16 – półprecyzja (najmniejsza strata jakości)
  • INT8 – 8-bitowa kwantyzacja (bardzo popularna)
  • INT4 / 4-bit – GPTQ, AWQ, BitsAndBytes 4-bit
  • INT3 / 2-bit / 1.58-bit – ekstremalna kompresja (np. BitNet, ternary models)

Najpopularniejsze metody (2026)

  • GPTQ – jedna z najskuteczniejszych metod 4-bitowych
  • AWQ (Activation-aware Weight Quantization) – lepsza jakość przy niskiej precyzji
  • BitsAndBytes (NF4) – najpopularniejsza w Hugging Face
  • GGUF + llama.cpp – standard w lokalnym uruchamianiu modeli
  • SmoothQuant, SmoothQuant+

Zalety Quantization

  • Zmniejszenie rozmiaru modelu nawet 4–8×
  • Znacznie wyższa prędkość inferencji (2–4× szybciej)
  • Niższe zużycie VRAM i energii
  • Możliwość uruchamiania dużych modeli na laptopach i telefonach
  • Taniej w chmurze (mniej GPU)

Wady i kompromisy

  • Nieznaczna strata jakości (perplexity / accuracy)
  • Trudniejsze dalsze fine-tuning (szczególnie przy bardzo niskiej precyzji)
  • Niektóre operacje (np. attention) mogą wymagać dekwantyzacji

Aktualny status (2026)

Quantization stała się standardem w branży. Prawie wszystkie modele na Hugging Face są dostępne w wersjach 4-bit i 8-bit. Techniki takie jak AWQ, GPTQ i nowe metody 1.58-bit (BitNet b1.58) pozwalają uruchamiać modele na poziomie bliskim oryginałowi przy ułamku zużycia zasobów. W erze on-device AI i edge computing kwantyzacja jest kluczowym elementem demokratyzacji dostępu do potężnych modeli językowych.