Learning Rate Schedulers – Strategie Dostosowywania Learning Rate podczas Treningu

Wprowadzenie

Learning Rate Schedulers to algorytmy dynamicznie zmieniające wartość learning rate (LR) w trakcie treningu modelu. Odpowiednie dostosowywanie learning rate jest jednym z najważniejszych czynników wpływających na szybkość i jakość treningu sieci neuronowych.

Dlaczego schedulery są ważne?

Stały learning rate rzadko jest optymalny. Na początku treningu chcemy szybko poruszać się po przestrzeni parametrów (wysoki LR), a pod koniec precyzyjnie dostroić model (niski LR). Schedulery automatyzują ten proces.

Najpopularniejsze Learning Rate Schedulers

Step Decay – zmniejsza LR co określoną liczbę epok (np. o połowę co 30 epok)
Exponential Decay – LR maleje wykładniczo
Cosine Annealing – LR zmienia się według funkcji cosinus (bardzo popularny)
Cosine Annealing with Warm Restarts (SGDR) – wielokrotne restartowanie cyklu
OneCycleLR – jedna duża fala (warmup → wysoki LR → decay)
Linear Warmup + Cosine Decay – standard w treningu LLM-ów
ReduceLROnPlateau – zmniejsza LR gdy metryka przestaje się poprawiać
Cyclic Learning Rate (CLR) – oscylacje między min i max LR

Najlepsze praktyki w 2026

W treningu LLM: **Linear Warmup (5-10%) + Cosine Decay**
Przy QLoRA/LoRA: wyższe learning rate (1e-4 – 5e-4) + OneCycle lub Cosine
Zawsze stosuj warmup – zapobiega niestabilności na początku
Dla obrazów: OneCycleLR lub Cosine Annealing z restartami
Monitoruj normę gradientu i loss podczas wyboru strategii

Porównanie schedulerów

Cosine Annealing – najlepsza zbieżność i stabilność
OneCycleLR – najszybszy trening (super-convergence)
Warmup + Cosine – najbezpieczniejszy wybór dla dużych modeli
ReduceLROnPlateau – dobry przy niestabilnych danych

Zastosowania

Trening dużych modeli językowych (Llama, Mistral, Gemma)
Computer Vision (ResNet, EfficientNet, Vision Transformers)
Fine-tuning z LoRA/QLoRA
Trening modeli dyfuzyjnych (Stable Diffusion)

Powiązane pojęcia

Cyclic Learning Rate→Deep Learning Optimization→Deep Learning→Deep Q Learning→End To End Learning→Conversion Rate Optimization AI→Deep Active Learning→Deep Any Shot Learning→Deep Audio Learning→Evidential Deep Learning→