Training Dynamics | Encyklopedia AI

Wprowadzenie

Training Dynamics opisuje zachowanie modelu podczas procesu uczenia – jak zmienia się strata (loss), jak ewoluują wagi, jak model eksploruje przestrzeń parametrów oraz jakie zjawiska pojawiają się w trakcie treningu dużych sieci neuronowych, szczególnie LLM-ów.

Kluczowe elementy Training Dynamics

Loss Curve – krzywa strat na zbiorze treningowym i walidacyjnym
Gradient Dynamics – zachowanie gradientów i kierunek aktualizacji wag
Learning Rate Schedule – sposób zmiany learning rate w czasie (cosine decay, warmup, restarts)
Optimizer Behavior – AdamW, Lion, Sophia, Muon itp.
Internal Representations Evolution – jak zmieniają się embeddingi i attention patterns

Ważne zjawiska w treningu LLM

1. Overfitting vs Generalization

Klasyczne zjawisko, w którym model za dobrze dopasowuje się do danych treningowych, tracąc zdolność generalizacji. W LLM-ach często obserwuje się "double descent" – po początkowym overfittingu model ponownie poprawia się przy dalszym treningu.

2. Grokking

Zjawisko, w którym model nagle osiąga bardzo wysoką dokładność na danych testowych długo po tym, jak loss na treningu już się ustabilizował. Szczególnie widoczne w małych modelach i matematycznych zadaniach.

3. Loss Spikes i niestabilność

Nagłe skoki wartości loss, często spowodowane zbyt wysokim learning rate, złym batch samplingiem lub problemami numerycznymi (np. exploding gradients). Nowoczesne techniki (gradient clipping, RMSNorm, QK-Norm) pomagają je minimalizować.

4. Phase Transitions

Modele podczas treningu przechodzą przez wyraźne fazy: początkowe uczenie się prostych wzorców, potem składni, semantyki, wiedzy faktograficznej, a na końcu rozumowania.

Najlepsze praktyki monitorowania Training Dynamics (2026)

Śledzenie loss, perplexity, gradient norm, learning rate i cosine similarity wag
Wandb / TensorBoard / Aim + custom metrics
Evaluation na wielu benchmarkach co kilka kroków (nie tylko loss)
Early stopping oparty nie tylko na loss, ale na downstream performance
Analiza logit lens i tuned lens do obserwacji ewolucji reprezentacji
Monitoring sharpness of the loss landscape

Powiązane pojęcia

Co Training→Decentralized Training Network→Adversarial Training→Brownian Dynamics→Ddp Training→Distributed Training→Ema Training→Fluid Dynamics ML→Immersive Training AI→Inverse Dynamics AI→