Wprowadzenie
Learning Rate Schedulers to algorytmy dynamicznie zmieniające wartość learning rate (LR) w trakcie treningu modelu. Odpowiednie dostosowywanie learning rate jest jednym z najważniejszych czynników wpływających na szybkość i jakość treningu sieci neuronowych.
Dlaczego schedulery są ważne?
Stały learning rate rzadko jest optymalny. Na początku treningu chcemy szybko poruszać się po przestrzeni parametrów (wysoki LR), a pod koniec precyzyjnie dostroić model (niski LR). Schedulery automatyzują ten proces.
Najpopularniejsze Learning Rate Schedulers
- Step Decay – zmniejsza LR co określoną liczbę epok (np. o połowę co 30 epok)
- Exponential Decay – LR maleje wykładniczo
- Cosine Annealing – LR zmienia się według funkcji cosinus (bardzo popularny)
- Cosine Annealing with Warm Restarts (SGDR) – wielokrotne restartowanie cyklu
- OneCycleLR – jedna duża fala (warmup → wysoki LR → decay)
- Linear Warmup + Cosine Decay – standard w treningu LLM-ów
- ReduceLROnPlateau – zmniejsza LR gdy metryka przestaje się poprawiać
- Cyclic Learning Rate (CLR) – oscylacje między min i max LR
Najlepsze praktyki w 2026
- W treningu LLM: **Linear Warmup (5-10%) + Cosine Decay**
- Przy QLoRA/LoRA: wyższe learning rate (1e-4 – 5e-4) + OneCycle lub Cosine
- Zawsze stosuj warmup – zapobiega niestabilności na początku
- Dla obrazów: OneCycleLR lub Cosine Annealing z restartami
- Monitoruj normę gradientu i loss podczas wyboru strategii
Porównanie schedulerów
- Cosine Annealing – najlepsza zbieżność i stabilność
- OneCycleLR – najszybszy trening (super-convergence)
- Warmup + Cosine – najbezpieczniejszy wybór dla dużych modeli
- ReduceLROnPlateau – dobry przy niestabilnych danych
Zastosowania
- Trening dużych modeli językowych (Llama, Mistral, Gemma)
- Computer Vision (ResNet, EfficientNet, Vision Transformers)
- Fine-tuning z LoRA/QLoRA
- Trening modeli dyfuzyjnych (Stable Diffusion)
Powiązane pojęcia
Learning Rate Warmup • Cosine Annealing • OneCycle Policy • Super-Convergence • Optimizer (AdamW, Lion, Sophia) • Gradient Clipping • Training Stability