Learning Rate Schedulers

Wprowadzenie

Learning Rate Schedulers to algorytmy dynamicznie zmieniające wartość learning rate (LR) w trakcie treningu modelu. Odpowiednie dostosowywanie learning rate jest jednym z najważniejszych czynników wpływających na szybkość i jakość treningu sieci neuronowych.

Dlaczego schedulery są ważne?

Stały learning rate rzadko jest optymalny. Na początku treningu chcemy szybko poruszać się po przestrzeni parametrów (wysoki LR), a pod koniec precyzyjnie dostroić model (niski LR). Schedulery automatyzują ten proces.

Najpopularniejsze Learning Rate Schedulers

  • Step Decay – zmniejsza LR co określoną liczbę epok (np. o połowę co 30 epok)
  • Exponential Decay – LR maleje wykładniczo
  • Cosine Annealing – LR zmienia się według funkcji cosinus (bardzo popularny)
  • Cosine Annealing with Warm Restarts (SGDR) – wielokrotne restartowanie cyklu
  • OneCycleLR – jedna duża fala (warmup → wysoki LR → decay)
  • Linear Warmup + Cosine Decay – standard w treningu LLM-ów
  • ReduceLROnPlateau – zmniejsza LR gdy metryka przestaje się poprawiać
  • Cyclic Learning Rate (CLR) – oscylacje między min i max LR

Najlepsze praktyki w 2026

  • W treningu LLM: **Linear Warmup (5-10%) + Cosine Decay**
  • Przy QLoRA/LoRA: wyższe learning rate (1e-4 – 5e-4) + OneCycle lub Cosine
  • Zawsze stosuj warmup – zapobiega niestabilności na początku
  • Dla obrazów: OneCycleLR lub Cosine Annealing z restartami
  • Monitoruj normę gradientu i loss podczas wyboru strategii

Porównanie schedulerów

  • Cosine Annealing – najlepsza zbieżność i stabilność
  • OneCycleLR – najszybszy trening (super-convergence)
  • Warmup + Cosine – najbezpieczniejszy wybór dla dużych modeli
  • ReduceLROnPlateau – dobry przy niestabilnych danych

Zastosowania

  • Trening dużych modeli językowych (Llama, Mistral, Gemma)
  • Computer Vision (ResNet, EfficientNet, Vision Transformers)
  • Fine-tuning z LoRA/QLoRA
  • Trening modeli dyfuzyjnych (Stable Diffusion)

Powiązane pojęcia

Learning Rate Warmup • Cosine Annealing • OneCycle Policy • Super-Convergence • Optimizer (AdamW, Lion, Sophia) • Gradient Clipping • Training Stability