Wprowadzenie
QLoRA (Quantized Low-Rank Adaptation) to zaawansowana metoda efektywnego fine-tuningu dużych modeli językowych. Łączy technikę kwantyzacji (4-bit) z LoRA, pozwalając na trenowanie modeli o parametrach rzędu 65 miliardów i więcej na pojedynczej karcie graficznej.
Jak działa QLoRA?
QLoRA składa się z dwóch kluczowych elementów:
- 4-bit NormalFloat (NF4) – precyzyjna kwantyzacja wag modelu
- Double Quantization – kwantyzacja stałych skal, co dodatkowo zmniejsza zużycie pamięci
- LoRA (Low-Rank Adaptation) – trenowane są tylko niskowymiarowe macierze adaptacyjne
Główne zalety
- Możliwość fine-tuningu modelu 65B na karcie z 48 GB VRAM
- Znacznie niższe zużycie pamięci w porównaniu do 16-bit (często poniżej 30% oryginalnego zapotrzebowania)
- Zachowanie jakości porównywalnej z pełnym fine-tuningiem (Full Fine-Tuning)
- Niższe koszty trenowania i możliwość pracy na konsumenckim sprzęcie
- Łatwość wdrożenia (biblioteka PEFT + bitsandbytes)
Zastosowanie
QLoRA stała się standardem w społeczności open-source przy trenowaniu modeli takich jak:
- Llama 2 / Llama 3
- Mistral, Mixtral
- Gemma, Phi-3
- Polskie modele (np. Llama-3-Polaris, Bielik)
Porównanie z innymi metodami
- Full Fine-Tuning – najwyższa jakość, ale ekstremalnie drogie
- LoRA – dobre rezultaty, ale wyższe zużycie pamięci niż QLoRA
- QLoRA – najlepszy kompromis między jakością a efektywnością pamięciową
Powiązane pojęcia
LoRA • BitsAndBytes • PEFT • NF4 • Double Quantization • Parameter-Efficient Fine-Tuning • LLM Fine-Tuning