Optimization | Encyklopedia AI

Wprowadzenie

Optimization (optymalizacja) w kontekście AI to proces znajdowania najlepszych parametrów modelu poprzez minimalizację funkcji straty (loss function). Jest to serce całego uczenia maszynowego – bez skutecznej optymalizacji nie byłoby możliwe trenowanie dzisiejszych wielkich modeli językowych.

Podstawowa idea

Model ma miliony lub miliardy parametrów (wag). Celem optymalizacji jest znalezienie takich wartości tych parametrów, które minimalizują różnicę między predykcjami modelu a rzeczywistymi danymi.

Najważniejsze algorytmy optymalizacji

Gradient Descent (GD) – klasyczna metoda: poruszanie się w kierunku przeciwnym do gradientu
Stochastic Gradient Descent (SGD) – aktualizacja po każdym przykładzie lub małym batchu
Momentum – przyspiesza w kierunkach o niskiej wariancji
Adam (Adaptive Moment Estimation) – obecnie najpopularniejszy (łączy momentum i RMSprop)
RMSprop, Adagrad, Adadelta
Lion, Sophia, Muon – nowocześniejsze optimizery dla LLM

Matematyczna podstawa

θ ← θ − η · ∇J(θ)

Gdzie:

θ – parametry modelu
η – learning rate (krok uczenia)
∇J(θ) – gradient funkcji straty

Wyzwania w optymalizacji

Local minima / Saddle points – funkcja straty ma bardzo skomplikowany krajobraz
Vanishing / Exploding gradients – szczególnie w głębokich sieciach (rozwiązane m.in. przez Residual Connections)
Learning rate scheduling – cosine decay, warmup, 1cycle policy
Scaling laws – jak optymalizować przy miliardach parametrów i bilionach tokenów

Optymalizacja w erze LLM

Pre-training na ogromnej skali (AdamW + mixed precision)
LoRA / QLoRA – optymalizacja tylko małej części parametrów
ZeRO, FSDP, DeepSpeed – rozproszona optymalizacja
8-bit / 4-bit optimizery (BitsAndBytes, GaLore)

Aktualny status (2026)

AdamW pozostaje dominującym optymalizatorem, ale pojawiają się coraz lepsze alternatywy (np. Muon, Sophia, Lion). W kontekście bardzo dużych modeli kluczowe stało się nie tylko znalezienie minimum, ale robienie tego efektywnie pod względem pamięci i energii. Nowe techniki takie jak Sharpness-Aware Minimization (SAM), muTransfer czy automatyczne planowanie learning rate znacząco poprawiają stabilność i jakość treningu.

Optymalizacja to jedna z najbardziej aktywnych dziedzin badań – od niej w dużej mierze zależy, jak szybko i tanio będziemy mogli budować coraz potężniejsze modele AI.