Wprowadzenie
Warmup Scheduling (harmonogram rozgrzewki) to technika polegająca na stopniowym zwiększaniu wartości learning rate od bardzo małej do docelowej na początku treningu modelu. Jest jedną z kluczowych praktyk w nowoczesnym uczeniu głębokim, szczególnie przy trenowaniu dużych modeli Transformer.
Dlaczego Warmup jest potrzebny?
- Zapobiega dużym aktualizacjom wag na początku treningu, gdy parametry są jeszcze losowe
- Stabilizuje proces uczenia i redukuje ryzyko eksplozji gradientów
- Pozwala modelowi „rozgrzać się” przed agresywną optymalizacją
- Poprawia ostateczną jakość modelu i przyspiesza zbieżność
Typy Warmup Scheduling
- Linear Warmup – najpopularniejszy (learning rate rośnie liniowo)
- Cosine Warmup – łagodniejsze przejście
- Exponential Warmup
- Constant-then-Decay – warmup + cosine annealing lub step decay
Zastosowanie w praktyce
- Trening modeli Transformer (BERT, GPT, Llama, Mistral)
- Duże modele wizyjne (Vision Transformers)
- Obiektowe detektory (YOLO, DETR)
- Reinforcement Learning z głębokimi sieciami
- Fine-tuning modeli open-source (LoRA + warmup)
Typowe parametry
Najczęściej stosowane wartości:
- Liczba kroków warmup: 1000–10000 (lub 5–10% całkowitych kroków)
- Maksymalny learning rate: 1e-3 do 5e-5 (zależnie od modelu i optymalizatora)
- Optymalizatory: AdamW + Warmup + Cosine Annealing (bardzo popularne połączenie)
Powiązane pojęcia
Learning Rate Scheduler • Cosine Annealing • AdamW • Linear Warmup • One Cycle Policy • Super Convergence • Gradient Explosion • Training Stability • Transformer Training Recipe