Wprowadzenie
Parameter-Efficient Fine-Tuning (PEFT) to rodzina technik, które pozwalają na dostrojenie dużych modeli językowych (LLM) przy aktualizacji tylko niewielkiego ułamka parametrów – zazwyczaj od 0,1% do 1%. Dzięki temu znacząco obniża się koszt obliczeniowy, zużycie pamięci VRAM oraz czas treningu.
Dlaczego PEFT jest tak ważny?
Pełne dostrojenie (Full Fine-Tuning) modelu o 7–70 miliardach parametrów jest ekstremalnie drogie i wymaga setek GPU. PEFT rozwiązuje ten problem, umożliwiając efektywne fine-tuning nawet na jednej karcie graficznej.
Główne techniki PEFT
- LoRA (Low-Rank Adaptation) – najpopularniejsza metoda. Dodaje niskiego rzędu macierze do warstw modelu.
- QLoRA (Quantized LoRA) – łączy LoRA z kwantyzacją (4-bit), pozwalając trenować modele 7B–70B na jednej GPU 24–48 GB.
- Adaptery (Houlsby, Pfeiffer) – dodawanie małych modułów między warstwami modelu.
- Prompt Tuning / P-Tuning – dostrajanie tylko promptów (soft prompts).
- Prefix-Tuning – dodawanie trenowalnych prefiksów do sekwencji wejściowej.
- IA3 (Infused Adapter by Inhibiting and Amplifying Inner Activations) – bardzo lekka metoda skalowania aktywacji.
Zalety PEFT
- Znacznie niższe zużycie pamięci i VRAM
- Szybsze trenowanie i inferencja
- Łatwiejsze przechowywanie wielu wersji modelu (tylko adaptery)
- Lepsza odporność na zapominanie katastrofalne (catastrophic forgetting)
- Możliwość łączenia wielu adapterów (LoRA merging)
Zastosowania w praktyce (2026)
PEFT jest obecnie standardem w branży. Używa się go do:
- Tworzenia specjalistycznych asystentów branżowych (medycznych, prawnych, finansowych)
- Dostosowywania modeli open-source (Llama 3, Mistral, Gemma, Qwen)
- Personalizacji modeli dla firm przy zachowaniu prywatności danych
- Szybkiego prototypowania i eksperymentów
Najlepsze praktyki
- Zaczynaj od QLoRA + 4-bit lub 8-bit
- Używaj LoRA rank 8–64 i alpha 16–32
- Stosuj target modules: q_proj, v_proj, k_proj, o_proj, gate_proj, up_proj, down_proj
- Łącz PEFT z technikami takimi jak Flash Attention 2 i gradient checkpointing
- Testuj merging adapterów (SLERP, TIES, DARE)
Powiązane pojęcia
LoRA • QLoRA • Full Fine-Tuning • RLHF • SFT • Quantization • Hugging Face PEFT Library • Low-Rank Adaptation • AdapterHub