Wprowadzenie
Training Dynamics opisuje zachowanie modelu podczas procesu uczenia – jak zmienia się strata (loss), jak ewoluują wagi, jak model eksploruje przestrzeń parametrów oraz jakie zjawiska pojawiają się w trakcie treningu dużych sieci neuronowych, szczególnie LLM-ów.
Kluczowe elementy Training Dynamics
- Loss Curve – krzywa strat na zbiorze treningowym i walidacyjnym
- Gradient Dynamics – zachowanie gradientów i kierunek aktualizacji wag
- Learning Rate Schedule – sposób zmiany learning rate w czasie (cosine decay, warmup, restarts)
- Optimizer Behavior – AdamW, Lion, Sophia, Muon itp.
- Internal Representations Evolution – jak zmieniają się embeddingi i attention patterns
Ważne zjawiska w treningu LLM
1. Overfitting vs Generalization
Klasyczne zjawisko, w którym model za dobrze dopasowuje się do danych treningowych, tracąc zdolność generalizacji. W LLM-ach często obserwuje się "double descent" – po początkowym overfittingu model ponownie poprawia się przy dalszym treningu.
2. Grokking
Zjawisko, w którym model nagle osiąga bardzo wysoką dokładność na danych testowych długo po tym, jak loss na treningu już się ustabilizował. Szczególnie widoczne w małych modelach i matematycznych zadaniach.
3. Loss Spikes i niestabilność
Nagłe skoki wartości loss, często spowodowane zbyt wysokim learning rate, złym batch samplingiem lub problemami numerycznymi (np. exploding gradients). Nowoczesne techniki (gradient clipping, RMSNorm, QK-Norm) pomagają je minimalizować.
4. Phase Transitions
Modele podczas treningu przechodzą przez wyraźne fazy: początkowe uczenie się prostych wzorców, potem składni, semantyki, wiedzy faktograficznej, a na końcu rozumowania.
Najlepsze praktyki monitorowania Training Dynamics (2026)
- Śledzenie loss, perplexity, gradient norm, learning rate i cosine similarity wag
- Wandb / TensorBoard / Aim + custom metrics
- Evaluation na wielu benchmarkach co kilka kroków (nie tylko loss)
- Early stopping oparty nie tylko na loss, ale na downstream performance
- Analiza logit lens i tuned lens do obserwacji ewolucji reprezentacji
- Monitoring sharpness of the loss landscape
Powiązane pojęcia
Loss Landscape • Double Descent • Grokking • Scaling Laws • Learning Rate Warmup • Cosine Annealing • Optimizer • Gradient Clipping • Emergent Abilities • Phase Transitions