Gradient Descent

Wprowadzenie

Gradient Descent to podstawowa metoda optymalizacji używana do trenowania prawie wszystkich modeli uczenia maszynowego. Jest sercem algorytmu backpropagation i fundamentem głębokiego uczenia.

Jak działa Gradient Descent?

Algorytm iteracyjnie aktualizuje parametry modelu, poruszając się w kierunku przeciwnym do gradientu funkcji straty:

θ ← θ − η · ∇J(θ)

Gdzie:

  • θ – parametry modelu (wagi)
  • η – learning rate (współczynnik uczenia)
  • ∇J(θ) – gradient funkcji straty

Typy Gradient Descent

  • Batch Gradient Descent – oblicza gradient na całym zbiorze treningowym
  • Stochastic Gradient Descent (SGD) – aktualizacja po każdym pojedynczym przykładzie
  • Mini-batch Gradient Descent – najpopularniejszy kompromis (batch 32–256 przykładów)

Zaawansowane warianty

  • Momentum – dodaje pęd, przyspieszając zbieżność
  • Adam – najpopularniejszy optymalizator
  • AdamW – ulepszona wersja używana w treningu LLM
  • RMSprop, Adagrad

Aktualny status (2026)

Gradient Descent (szczególnie w wariancie AdamW) nadal pozostaje podstawową metodą optymalizacji we wszystkich dużych modelach językowych. Dzięki technikom rozproszonego treningu (ZeRO, FSDP) oraz mieszanej precyzji (BF16, FP8) możliwe jest efektywne trenowanie modeli o setkach miliardów parametrów.