QLoRA

Wprowadzenie

QLoRA (Quantized Low-Rank Adaptation) to zaawansowana metoda efektywnego fine-tuningu dużych modeli językowych. Łączy technikę kwantyzacji (4-bit) z LoRA, pozwalając na trenowanie modeli o parametrach rzędu 65 miliardów i więcej na pojedynczej karcie graficznej.

Jak działa QLoRA?

QLoRA składa się z dwóch kluczowych elementów:

  • 4-bit NormalFloat (NF4) – precyzyjna kwantyzacja wag modelu
  • Double Quantization – kwantyzacja stałych skal, co dodatkowo zmniejsza zużycie pamięci
  • LoRA (Low-Rank Adaptation) – trenowane są tylko niskowymiarowe macierze adaptacyjne

Główne zalety

  • Możliwość fine-tuningu modelu 65B na karcie z 48 GB VRAM
  • Znacznie niższe zużycie pamięci w porównaniu do 16-bit (często poniżej 30% oryginalnego zapotrzebowania)
  • Zachowanie jakości porównywalnej z pełnym fine-tuningiem (Full Fine-Tuning)
  • Niższe koszty trenowania i możliwość pracy na konsumenckim sprzęcie
  • Łatwość wdrożenia (biblioteka PEFT + bitsandbytes)

Zastosowanie

QLoRA stała się standardem w społeczności open-source przy trenowaniu modeli takich jak:

  • Llama 2 / Llama 3
  • Mistral, Mixtral
  • Gemma, Phi-3
  • Polskie modele (np. Llama-3-Polaris, Bielik)

Porównanie z innymi metodami

  • Full Fine-Tuning – najwyższa jakość, ale ekstremalnie drogie
  • LoRA – dobre rezultaty, ale wyższe zużycie pamięci niż QLoRA
  • QLoRA – najlepszy kompromis między jakością a efektywnością pamięciową

Powiązane pojęcia

LoRA • BitsAndBytes • PEFT • NF4 • Double Quantization • Parameter-Efficient Fine-Tuning • LLM Fine-Tuning