QLoRA

Wprowadzenie

QLoRA (Quantized Low-Rank Adaptation) to zaawansowana metoda efektywnego fine-tuningu dużych modeli językowych. Łączy technikę kwantyzacji (4-bit) z LoRA, pozwalając na trenowanie modeli o parametrach rzędu 65 miliardów i więcej na pojedynczej karcie graficznej.

Jak działa QLoRA?

QLoRA składa się z dwóch kluczowych elementów:

4-bit NormalFloat (NF4) – precyzyjna kwantyzacja wag modelu
Double Quantization – kwantyzacja stałych skal, co dodatkowo zmniejsza zużycie pamięci
LoRA (Low-Rank Adaptation) – trenowane są tylko niskowymiarowe macierze adaptacyjne

Główne zalety

Możliwość fine-tuningu modelu 65B na karcie z 48 GB VRAM
Znacznie niższe zużycie pamięci w porównaniu do 16-bit (często poniżej 30% oryginalnego zapotrzebowania)
Zachowanie jakości porównywalnej z pełnym fine-tuningiem (Full Fine-Tuning)
Niższe koszty trenowania i możliwość pracy na konsumenckim sprzęcie
Łatwość wdrożenia (biblioteka PEFT + bitsandbytes)

Zastosowanie

QLoRA stała się standardem w społeczności open-source przy trenowaniu modeli takich jak:

Llama 2 / Llama 3
Mistral, Mixtral
Gemma, Phi-3
Polskie modele (np. Llama-3-Polaris, Bielik)

Porównanie z innymi metodami

Full Fine-Tuning – najwyższa jakość, ale ekstremalnie drogie
LoRA – dobre rezultaty, ale wyższe zużycie pamięci niż QLoRA
QLoRA – najlepszy kompromis między jakością a efektywnością pamięciową