LoRA (Low-Rank Adaptation)

Wprowadzenie

LoRA (Low-Rank Adaptation) to technika efektywnego dostrajania (Parameter-Efficient Fine-Tuning) dużych modeli językowych, wprowadzona w 2021 roku przez Microsoft Research. Zamiast aktualizować wszystkie miliardy parametrów modelu, LoRA zamraża oryginalne wagi i dodaje do nich małe, niskiego rzędu macierze adaptacyjne.

Jak działa LoRA?

Dla każdej warstwy wag (np. w warstwach Attention) oryginalna macierz W jest zamrożona. Zamiast tego dodawane są dwie małe macierze A i B:

W' = W + (B · A) / r     (gdzie r ≪ min(dim1, dim2))

Liczba trenowanych parametrów spada dramatycznie – np. z 7 miliardów do zaledwie 10–20 milionów.

Zalety LoRA

  • Znacznie niższe zużycie VRAM podczas treningu
  • Szybszy i tańszy fine-tuning
  • Możliwość przechowywania wielu adapterów (kilka MB każdy) zamiast kopii całego modelu
  • Łatwe przełączanie między zadaniami (task-specific adapters)
  • Kompatybilność z Quantization (QLoRA)

QLoRA – ulepszona wersja

QLoRA łączy LoRA z 4-bitową kwantyzacją modelu bazowego. Dzięki temu można fine-tunować modele 7B–70B na jednej karcie graficznej konsumenckiej (np. RTX 4090), zachowując niemal identyczną jakość jak pełny fine-tuning.

Porównanie z innymi metodami

  • Full Fine-Tuning – aktualizacja wszystkich parametrów (najlepsza jakość, bardzo kosztowna)
  • LoRA / QLoRA – tylko adaptery (bardzo dobra jakość przy ułamku kosztów)
  • Prefix Tuning / Prompt Tuning – modyfikacja promptu
  • Adapter Tuning – starsza metoda

Zastosowania

  • Tworzenie specjalistycznych modeli (medycznych, prawniczych, kodujących)
  • Personalizacja asystentów AI
  • Szybkie dostrajanie na danych firmy (RAG + LoRA)
  • Tworzenie wielu wersji modelu przy minimalnym koszcie przechowywania

Aktualny status (2026)

LoRA (i jej warianty) stała się standardem w fine-tuningu dużych modeli językowych. Biblioteka PEFT od Hugging Face uczyniła ją niezwykle łatwą w użyciu. Prawie wszystkie popularne modele otwarte (Llama 3, Mistral, Qwen, Gemma, Phi) są fine-tunowane właśnie za pomocą LoRA lub QLoRA. Nowsze metody (DoRA, LoRA+, PiSSA) dalej udoskonalają tę technikę, ale LoRA pozostaje najpopularniejszym i najbardziej praktycznym rozwiązaniem.

Dzięki LoRA democratyzacja dostrajania potężnych modeli AI stała się rzeczywistością.