Proximal Policy Optimization (PPO)

Wprowadzenie

Proximal Policy Optimization (PPO) to algorytm uczenia ze wzmocnieniem (Reinforcement Learning) wprowadzony przez OpenAI w 2017 roku. Jest obecnie jednym z najpopularniejszych i najbardziej praktycznych algorytmów policy gradient, szczególnie cenionym za stabilność treningu.

Problemy, które rozwiązuje

Klasyczne metody Policy Gradient (np. REINFORCE) są niestabilne – zbyt duży krok aktualizacji parametrów może całkowicie zepsuć wyuczoną strategię. PPO ogranicza wielkość zmian polityki za pomocą mechanizmu clipping.

Jak działa PPO?

PPO optymalizuje clipped surrogate objective:

LCLIP(θ) = Êt[ min(rt(θ)Ât, clip(rt(θ), 1−ε, 1+ε)Ât) ]

Gdzie:

  • rt(θ) – stosunek nowych i starych prawdopodobieństw akcji (probability ratio)
  • Ât – advantage estimate
  • ε – parametr clip (zwykle 0.1–0.2)

Warianty PPO

  • PPO-Clip – podstawowa wersja z przycinaniem
  • PPO-Penalty – wersja z karą KL-divergence (rzadziej używana)
  • Actor-Critic PPO – najpopularniejsza implementacja (używa Critic do estymacji wartości)

Zalety PPO

  • Duża stabilność treningu
  • Prosty w implementacji i dostrajaniu
  • Dobra sample efficiency
  • Skuteczny zarówno w środowiskach dyskretnych, jak i ciągłych
  • Standard w RLHF (Reinforcement Learning from Human Feedback)

Zastosowania

  • Dostrajanie modeli językowych (InstructGPT, ChatGPT, Llama-3, Claude)
  • Gry komputerowe (OpenAI Five – Dota 2)
  • Robotyka
  • Autonomiczne pojazdy
  • Optymalizacja procesów przemysłowych

Ograniczenia

  • Wymaga dużej liczby interakcji ze środowiskiem
  • Czuły na hiperparametry (learning rate, clip range, GAE lambda)
  • Wolniejszy niż nowsze metody off-policy (np. SAC)

Aktualny status (2026)

PPO nadal pozostaje „workhorse” algorytmem RLHF i jest używany przy trenowaniu prawie wszystkich czołowych modeli językowych. Mimo pojawienia się nowszych metod (DPO, ORPO, GRPO, Kahneman-Tversky Optimization), PPO jest nadal szeroko stosowany ze względu na niezawodność i dojrzałość implementacji. Nowoczesne warianty łączą PPO z technikami takimi jak LoRA, hybrid reward models i synthetic data.