Parameter-Efficient Fine-Tuning (PEFT)

Wprowadzenie

Parameter-Efficient Fine-Tuning (PEFT) to rodzina technik, które pozwalają na dostrojenie dużych modeli językowych (LLM) przy aktualizacji tylko niewielkiego ułamka parametrów – zazwyczaj od 0,1% do 1%. Dzięki temu znacząco obniża się koszt obliczeniowy, zużycie pamięci VRAM oraz czas treningu.

Dlaczego PEFT jest tak ważny?

Pełne dostrojenie (Full Fine-Tuning) modelu o 7–70 miliardach parametrów jest ekstremalnie drogie i wymaga setek GPU. PEFT rozwiązuje ten problem, umożliwiając efektywne fine-tuning nawet na jednej karcie graficznej.

Główne techniki PEFT

  • LoRA (Low-Rank Adaptation) – najpopularniejsza metoda. Dodaje niskiego rzędu macierze do warstw modelu.
  • QLoRA (Quantized LoRA) – łączy LoRA z kwantyzacją (4-bit), pozwalając trenować modele 7B–70B na jednej GPU 24–48 GB.
  • Adaptery (Houlsby, Pfeiffer) – dodawanie małych modułów między warstwami modelu.
  • Prompt Tuning / P-Tuning – dostrajanie tylko promptów (soft prompts).
  • Prefix-Tuning – dodawanie trenowalnych prefiksów do sekwencji wejściowej.
  • IA3 (Infused Adapter by Inhibiting and Amplifying Inner Activations) – bardzo lekka metoda skalowania aktywacji.

Zalety PEFT

  • Znacznie niższe zużycie pamięci i VRAM
  • Szybsze trenowanie i inferencja
  • Łatwiejsze przechowywanie wielu wersji modelu (tylko adaptery)
  • Lepsza odporność na zapominanie katastrofalne (catastrophic forgetting)
  • Możliwość łączenia wielu adapterów (LoRA merging)

Zastosowania w praktyce (2026)

PEFT jest obecnie standardem w branży. Używa się go do:

  • Tworzenia specjalistycznych asystentów branżowych (medycznych, prawnych, finansowych)
  • Dostosowywania modeli open-source (Llama 3, Mistral, Gemma, Qwen)
  • Personalizacji modeli dla firm przy zachowaniu prywatności danych
  • Szybkiego prototypowania i eksperymentów

Najlepsze praktyki

  • Zaczynaj od QLoRA + 4-bit lub 8-bit
  • Używaj LoRA rank 8–64 i alpha 16–32
  • Stosuj target modules: q_proj, v_proj, k_proj, o_proj, gate_proj, up_proj, down_proj
  • Łącz PEFT z technikami takimi jak Flash Attention 2 i gradient checkpointing
  • Testuj merging adapterów (SLERP, TIES, DARE)

Powiązane pojęcia

LoRA • QLoRA • Full Fine-Tuning • RLHF • SFT • Quantization • Hugging Face PEFT Library • Low-Rank Adaptation • AdapterHub