Wprowadzenie
Adam Optimizer (Adaptive Moment Estimation) to jeden z najpopularniejszych algorytmów optymalizacji stosowanych w głębokim uczeniu. Został zaproponowany w 2014 roku przez Diederika Kingmę i Jimmy’ego Ba. Łączy w sobie zalety dwóch wcześniejszych metod: Momentum i RMSprop, oferując adaptacyjne tempo uczenia dla każdego parametru.
Jak działa Adam?
Adam utrzymuje dwa momenty dla każdego parametru:
- m – pierwszy moment (średnia gradientów) – odpowiada Momentum
- v – drugi moment (nieskalowana wariancja gradientów) – odpowiada RMSprop
mt = β₁·mt-1 + (1−β₁)·gt
vt = β₂·vt-1 + (1−β₂)·gt²
θt = θt-1 − η·(m̂t / (√v̂t + ε))
Zalety Adam Optimizer
- Adaptacyjne tempo uczenia dla każdego parametru
- Szybka zbieżność i dobra wydajność w praktyce
- Działa dobrze z różnymi architekturami i funkcjami straty
- Wymaga małego dostrojenia hiperparametrów
- Skuteczny przy rzadkich gradientach
Wady i ograniczenia
- Może powodować niestabilność w późnych etapach treningu
- Czasami wymaga ręcznego dostrojenia learning rate
- Nie zawsze jest najlepszy przy bardzo głębokich modelach (często AdamW jest lepszy)
Popularne warianty
- AdamW – Adam z decoupled weight decay (obecnie standard w LLM)
- Nadam – Adam z Nesterov momentum
- AMSGrad – poprawka na problemy z konwergencją
- RAdam, Ranger – nowsze hybrydy
Zastosowania
- Trening sieci neuronowych (CNN, Transformer, LLM)
- Modele generatywne (GAN, Diffusion)
- Fine-tuning dużych modeli językowych
- Większość projektów deep learning w praktyce
Aktualny status (2026)
Adam (szczególnie AdamW) nadal pozostaje najpopularniejszym optymalizatorem w treningu modeli głębokich i dużych modeli językowych. Mimo pojawienia się nowszych optymalizatorów (Lion, Sophia, Muon), AdamW jest domyślnym wyborem w większości frameworków i bibliotek (Hugging Face, PyTorch). Jego prostota, skuteczność i dobre właściwości skalowania sprawiają, że pozostaje standardem w branży.