Optimization Algorithms

Wprowadzenie

Optimization Algorithms to algorytmy odpowiedzialne za aktualizację parametrów (wag) sieci neuronowych podczas treningu. Wybór odpowiedniego optymalizatora ma ogromny wpływ na szybkość treningu, stabilność i ostateczną jakość modelu.

Najważniejsze algorytmy optymalizacji (2026)

1. AdamW

Najczęściej używany optymalizator w 2026 roku. Jest to ulepszona wersja Adama z decoupled weight decay. Zapewnia bardzo dobrą stabilność i wydajność w treningu Transformerów i LLM-ów.

2. Lion (EVO)

Optimizer zaproponowany przez Google w 2023 roku. Zamiast używać momentu drugiego rzędu (jak Adam), używa sign of gradient. Jest znacznie bardziej pamięciooszczędny i często szybszy od AdamW.

3. Sophia

Nowoczesny optimizer (2024/2025) wykorzystujący przybliżenie drugiej pochodnej (Hessian). Charakteryzuje się bardzo szybką zbieżnością i lepszymi wynikami przy dużych learning rate’ach. Szczególnie dobry do treningu dużych modeli.

4. Inne ważne optymalizatory

  • Adam – klasyk, wciąż szeroko używany
  • RMSprop – dobry do RNN i niestabilnych gradientów
  • Adafactor – bardzo oszczędny pamięciowo (używany w T5, PaLM)
  • Muon – nowy optimizer z 2025/2026, łączący zalety Adama i Lion
  • SGD + Momentum – wciąż najlepszy w niektórych zadaniach wizyjnych

Porównanie optymalizatorów

  • AdamW → Najlepszy kompromis uniwersalny
  • Lion → Niższe zużycie pamięci, szybszy trening
  • Sophia → Najszybsza zbieżność (przy odpowiednim tuningu)
  • SGD → Najlepsza generalizacja (ale wolniejszy trening)

Najlepsze praktyki 2026

  • Większość LLM-ów: AdamW + cosine scheduling + warmup
  • Trening z ograniczoną pamięcią: Lion lub Adafactor
  • Bardzo duże modele: Sophia lub Muon
  • Computer Vision: często wciąż SGD + Momentum lub AdamW

Powiązane pojęcia

AdamW • Lion Optimizer • Sophia Optimizer • Learning Rate Scheduling • Weight Decay • Second-order Optimization • Gradient Clipping • Warmup • Cosine Annealing