Warmup Scheduling

Wprowadzenie

Warmup Scheduling (harmonogram rozgrzewki) to technika polegająca na stopniowym zwiększaniu wartości learning rate od bardzo małej do docelowej na początku treningu modelu. Jest jedną z kluczowych praktyk w nowoczesnym uczeniu głębokim, szczególnie przy trenowaniu dużych modeli Transformer.

Dlaczego Warmup jest potrzebny?

  • Zapobiega dużym aktualizacjom wag na początku treningu, gdy parametry są jeszcze losowe
  • Stabilizuje proces uczenia i redukuje ryzyko eksplozji gradientów
  • Pozwala modelowi „rozgrzać się” przed agresywną optymalizacją
  • Poprawia ostateczną jakość modelu i przyspiesza zbieżność

Typy Warmup Scheduling

  • Linear Warmup – najpopularniejszy (learning rate rośnie liniowo)
  • Cosine Warmup – łagodniejsze przejście
  • Exponential Warmup
  • Constant-then-Decay – warmup + cosine annealing lub step decay

Zastosowanie w praktyce

  • Trening modeli Transformer (BERT, GPT, Llama, Mistral)
  • Duże modele wizyjne (Vision Transformers)
  • Obiektowe detektory (YOLO, DETR)
  • Reinforcement Learning z głębokimi sieciami
  • Fine-tuning modeli open-source (LoRA + warmup)

Typowe parametry

Najczęściej stosowane wartości:

  • Liczba kroków warmup: 1000–10000 (lub 5–10% całkowitych kroków)
  • Maksymalny learning rate: 1e-3 do 5e-5 (zależnie od modelu i optymalizatora)
  • Optymalizatory: AdamW + Warmup + Cosine Annealing (bardzo popularne połączenie)

Powiązane pojęcia

Learning Rate Scheduler • Cosine Annealing • AdamW • Linear Warmup • One Cycle Policy • Super Convergence • Gradient Explosion • Training Stability • Transformer Training Recipe