Policy Gradient Methods

Wprowadzenie

Policy Gradient Methods (Metody Gradientu Strategii) to rodzina algorytmów Reinforcement Learning (RL), które bezpośrednio optymalizują strategię agenta (policy), zamiast uczyć się funkcji wartości (value function).

Dlaczego Policy Gradient?

W przeciwieństwie do metod opartych na Q-learningu (value-based), metody gradientu strategii są szczególnie skuteczne w środowiskach z ciągłą przestrzenią akcji oraz w zadaniach, gdzie ważna jest stochastyczna strategia.

Jak działają Policy Gradient Methods?

Algorytm optymalizuje parametrów θ strategii π(a|s, θ) maksymalizując oczekiwaną nagrodę. Gradient strategii obliczany jest według wzoru:

∇J(θ) = E[∇log π(a|s, θ) × G]

Gdzie G to zwracana nagroda (return).

Główne algorytmy Policy Gradient

  • REINFORCE – podstawowa metoda Monte Carlo (najprostsza, ale bardzo niestabilna)
  • Actor-Critic – łączy policy gradient z funkcją krytyka (redukcja wariancji)
  • A2C / A3C – Asynchronous Advantage Actor-Critic
  • PPO (Proximal Policy Optimization) – obecnie najpopularniejszy, używany m.in. w ChatGPT (RLHF)
  • TRPO (Trust Region Policy Optimization) – poprzednik PPO, bardziej skomplikowany
  • DDPG, SAC, TD3 – metody dla ciągłych przestrzeni akcji

Zalety i wady

  • Zalety: Naturalna obsługa stochastycznych strategii, dobra skalowalność, end-to-end uczenie
  • Wady: Wysoka wariancja gradientu, wolniejsza zbieżność, duża niestabilność treningu

Zastosowania w praktyce (2026)

  • Autonomiczne pojazdy i robotyka
  • Gry komputerowe (OpenAI Five, AlphaStar)
  • Optymalizacja systemów (rekomendacje, reklama, trading)
  • RLHF – dostrajanie modeli językowych (ChatGPT, Llama, Claude)
  • Sterowanie energią, zarządzanie łańcuchem dostaw

Najlepsze praktyki

  • Zawsze używaj wariantu z baseline (Actor-Critic)
  • Stosuj PPO – najlepszy stosunek jakości do stabilności
  • Używaj entropy regularization (zachęca do eksploracji)
  • Łącz z technikami takimi jak GAE (Generalized Advantage Estimation)
  • Monitoruj gradient norm i clipping

Powiązane pojęcia

Reinforcement Learning • Actor-Critic • PPO • REINFORCE • Q-Learning • Value-Based Methods • RLHF • MARL