Wprowadzenie
Gradient Descent to podstawowa metoda optymalizacji używana do trenowania prawie wszystkich modeli uczenia maszynowego. Jest sercem algorytmu backpropagation i fundamentem głębokiego uczenia.
Jak działa Gradient Descent?
Algorytm iteracyjnie aktualizuje parametry modelu, poruszając się w kierunku przeciwnym do gradientu funkcji straty:
θ ← θ − η · ∇J(θ)
Gdzie:
- θ – parametry modelu (wagi)
- η – learning rate (współczynnik uczenia)
- ∇J(θ) – gradient funkcji straty
Typy Gradient Descent
- Batch Gradient Descent – oblicza gradient na całym zbiorze treningowym
- Stochastic Gradient Descent (SGD) – aktualizacja po każdym pojedynczym przykładzie
- Mini-batch Gradient Descent – najpopularniejszy kompromis (batch 32–256 przykładów)
Zaawansowane warianty
- Momentum – dodaje pęd, przyspieszając zbieżność
- Adam – najpopularniejszy optymalizator
- AdamW – ulepszona wersja używana w treningu LLM
- RMSprop, Adagrad
Aktualny status (2026)
Gradient Descent (szczególnie w wariancie AdamW) nadal pozostaje podstawową metodą optymalizacji we wszystkich dużych modelach językowych. Dzięki technikom rozproszonego treningu (ZeRO, FSDP) oraz mieszanej precyzji (BF16, FP8) możliwe jest efektywne trenowanie modeli o setkach miliardów parametrów.