Gradient Descent | Encyklopedia AI

Wprowadzenie

Gradient Descent to podstawowa metoda optymalizacji używana do trenowania prawie wszystkich modeli uczenia maszynowego. Jest sercem algorytmu backpropagation i fundamentem głębokiego uczenia.

Jak działa Gradient Descent?

Algorytm iteracyjnie aktualizuje parametry modelu, poruszając się w kierunku przeciwnym do gradientu funkcji straty:

θ ← θ − η · ∇J(θ)

Gdzie:

θ – parametry modelu (wagi)
η – learning rate (współczynnik uczenia)
∇J(θ) – gradient funkcji straty

Typy Gradient Descent

Batch Gradient Descent – oblicza gradient na całym zbiorze treningowym
Stochastic Gradient Descent (SGD) – aktualizacja po każdym pojedynczym przykładzie
Mini-batch Gradient Descent – najpopularniejszy kompromis (batch 32–256 przykładów)

Zaawansowane warianty

Momentum – dodaje pęd, przyspieszając zbieżność
Adam – najpopularniejszy optymalizator
AdamW – ulepszona wersja używana w treningu LLM
RMSprop, Adagrad

Aktualny status (2026)

Gradient Descent (szczególnie w wariancie AdamW) nadal pozostaje podstawową metodą optymalizacji we wszystkich dużych modelach językowych. Dzięki technikom rozproszonego treningu (ZeRO, FSDP) oraz mieszanej precyzji (BF16, FP8) możliwe jest efektywne trenowanie modeli o setkach miliardów parametrów.