Wprowadzenie
LoRA (Low-Rank Adaptation) to technika efektywnego dostrajania (Parameter-Efficient Fine-Tuning) dużych modeli językowych, wprowadzona w 2021 roku przez Microsoft Research. Zamiast aktualizować wszystkie miliardy parametrów modelu, LoRA zamraża oryginalne wagi i dodaje do nich małe, niskiego rzędu macierze adaptacyjne.
Jak działa LoRA?
Dla każdej warstwy wag (np. w warstwach Attention) oryginalna macierz W jest zamrożona. Zamiast tego dodawane są dwie małe macierze A i B:
W' = W + (B · A) / r (gdzie r ≪ min(dim1, dim2))
Liczba trenowanych parametrów spada dramatycznie – np. z 7 miliardów do zaledwie 10–20 milionów.
Zalety LoRA
- Znacznie niższe zużycie VRAM podczas treningu
- Szybszy i tańszy fine-tuning
- Możliwość przechowywania wielu adapterów (kilka MB każdy) zamiast kopii całego modelu
- Łatwe przełączanie między zadaniami (task-specific adapters)
- Kompatybilność z Quantization (QLoRA)
QLoRA – ulepszona wersja
QLoRA łączy LoRA z 4-bitową kwantyzacją modelu bazowego. Dzięki temu można fine-tunować modele 7B–70B na jednej karcie graficznej konsumenckiej (np. RTX 4090), zachowując niemal identyczną jakość jak pełny fine-tuning.
Porównanie z innymi metodami
- Full Fine-Tuning – aktualizacja wszystkich parametrów (najlepsza jakość, bardzo kosztowna)
- LoRA / QLoRA – tylko adaptery (bardzo dobra jakość przy ułamku kosztów)
- Prefix Tuning / Prompt Tuning – modyfikacja promptu
- Adapter Tuning – starsza metoda
Zastosowania
- Tworzenie specjalistycznych modeli (medycznych, prawniczych, kodujących)
- Personalizacja asystentów AI
- Szybkie dostrajanie na danych firmy (RAG + LoRA)
- Tworzenie wielu wersji modelu przy minimalnym koszcie przechowywania
Aktualny status (2026)
LoRA (i jej warianty) stała się standardem w fine-tuningu dużych modeli językowych. Biblioteka PEFT od Hugging Face uczyniła ją niezwykle łatwą w użyciu. Prawie wszystkie popularne modele otwarte (Llama 3, Mistral, Qwen, Gemma, Phi) są fine-tunowane właśnie za pomocą LoRA lub QLoRA. Nowsze metody (DoRA, LoRA+, PiSSA) dalej udoskonalają tę technikę, ale LoRA pozostaje najpopularniejszym i najbardziej praktycznym rozwiązaniem.
Dzięki LoRA democratyzacja dostrajania potężnych modeli AI stała się rzeczywistością.