Wprowadzenie
Optimization Algorithms to algorytmy odpowiedzialne za aktualizację parametrów (wag) sieci neuronowych podczas treningu. Wybór odpowiedniego optymalizatora ma ogromny wpływ na szybkość treningu, stabilność i ostateczną jakość modelu.
Najważniejsze algorytmy optymalizacji (2026)
1. AdamW
Najczęściej używany optymalizator w 2026 roku. Jest to ulepszona wersja Adama z decoupled weight decay. Zapewnia bardzo dobrą stabilność i wydajność w treningu Transformerów i LLM-ów.
2. Lion (EVO)
Optimizer zaproponowany przez Google w 2023 roku. Zamiast używać momentu drugiego rzędu (jak Adam), używa sign of gradient. Jest znacznie bardziej pamięciooszczędny i często szybszy od AdamW.
3. Sophia
Nowoczesny optimizer (2024/2025) wykorzystujący przybliżenie drugiej pochodnej (Hessian). Charakteryzuje się bardzo szybką zbieżnością i lepszymi wynikami przy dużych learning rate’ach. Szczególnie dobry do treningu dużych modeli.
4. Inne ważne optymalizatory
- Adam – klasyk, wciąż szeroko używany
- RMSprop – dobry do RNN i niestabilnych gradientów
- Adafactor – bardzo oszczędny pamięciowo (używany w T5, PaLM)
- Muon – nowy optimizer z 2025/2026, łączący zalety Adama i Lion
- SGD + Momentum – wciąż najlepszy w niektórych zadaniach wizyjnych
Porównanie optymalizatorów
- AdamW → Najlepszy kompromis uniwersalny
- Lion → Niższe zużycie pamięci, szybszy trening
- Sophia → Najszybsza zbieżność (przy odpowiednim tuningu)
- SGD → Najlepsza generalizacja (ale wolniejszy trening)
Najlepsze praktyki 2026
- Większość LLM-ów: AdamW + cosine scheduling + warmup
- Trening z ograniczoną pamięcią: Lion lub Adafactor
- Bardzo duże modele: Sophia lub Muon
- Computer Vision: często wciąż SGD + Momentum lub AdamW
Powiązane pojęcia
AdamW • Lion Optimizer • Sophia Optimizer • Learning Rate Scheduling • Weight Decay • Second-order Optimization • Gradient Clipping • Warmup • Cosine Annealing