Training Dynamics

Wprowadzenie

Training Dynamics opisuje zachowanie modelu podczas procesu uczenia – jak zmienia się strata (loss), jak ewoluują wagi, jak model eksploruje przestrzeń parametrów oraz jakie zjawiska pojawiają się w trakcie treningu dużych sieci neuronowych, szczególnie LLM-ów.

Kluczowe elementy Training Dynamics

  • Loss Curve – krzywa strat na zbiorze treningowym i walidacyjnym
  • Gradient Dynamics – zachowanie gradientów i kierunek aktualizacji wag
  • Learning Rate Schedule – sposób zmiany learning rate w czasie (cosine decay, warmup, restarts)
  • Optimizer Behavior – AdamW, Lion, Sophia, Muon itp.
  • Internal Representations Evolution – jak zmieniają się embeddingi i attention patterns

Ważne zjawiska w treningu LLM

1. Overfitting vs Generalization

Klasyczne zjawisko, w którym model za dobrze dopasowuje się do danych treningowych, tracąc zdolność generalizacji. W LLM-ach często obserwuje się "double descent" – po początkowym overfittingu model ponownie poprawia się przy dalszym treningu.

2. Grokking

Zjawisko, w którym model nagle osiąga bardzo wysoką dokładność na danych testowych długo po tym, jak loss na treningu już się ustabilizował. Szczególnie widoczne w małych modelach i matematycznych zadaniach.

3. Loss Spikes i niestabilność

Nagłe skoki wartości loss, często spowodowane zbyt wysokim learning rate, złym batch samplingiem lub problemami numerycznymi (np. exploding gradients). Nowoczesne techniki (gradient clipping, RMSNorm, QK-Norm) pomagają je minimalizować.

4. Phase Transitions

Modele podczas treningu przechodzą przez wyraźne fazy: początkowe uczenie się prostych wzorców, potem składni, semantyki, wiedzy faktograficznej, a na końcu rozumowania.

Najlepsze praktyki monitorowania Training Dynamics (2026)

  • Śledzenie loss, perplexity, gradient norm, learning rate i cosine similarity wag
  • Wandb / TensorBoard / Aim + custom metrics
  • Evaluation na wielu benchmarkach co kilka kroków (nie tylko loss)
  • Early stopping oparty nie tylko na loss, ale na downstream performance
  • Analiza logit lens i tuned lens do obserwacji ewolucji reprezentacji
  • Monitoring sharpness of the loss landscape

Powiązane pojęcia

Loss Landscape • Double Descent • Grokking • Scaling Laws • Learning Rate Warmup • Cosine Annealing • Optimizer • Gradient Clipping • Emergent Abilities • Phase Transitions