Proximal Policy Optimization (PPO)

Wprowadzenie

Proximal Policy Optimization (PPO) to algorytm uczenia ze wzmocnieniem (Reinforcement Learning) wprowadzony przez OpenAI w 2017 roku. Jest obecnie jednym z najpopularniejszych i najbardziej praktycznych algorytmów policy gradient, szczególnie cenionym za stabilność treningu.

Problemy, które rozwiązuje

Klasyczne metody Policy Gradient (np. REINFORCE) są niestabilne – zbyt duży krok aktualizacji parametrów może całkowicie zepsuć wyuczoną strategię. PPO ogranicza wielkość zmian polityki za pomocą mechanizmu clipping.

Jak działa PPO?

PPO optymalizuje clipped surrogate objective:

L^CLIP(θ) = Ê_t[ min(r_t(θ)Â_t, clip(r_t(θ), 1−ε, 1+ε)Â_t) ]

Gdzie:

r_t(θ) – stosunek nowych i starych prawdopodobieństw akcji (probability ratio)
Â_t – advantage estimate
ε – parametr clip (zwykle 0.1–0.2)

Warianty PPO

PPO-Clip – podstawowa wersja z przycinaniem
PPO-Penalty – wersja z karą KL-divergence (rzadziej używana)
Actor-Critic PPO – najpopularniejsza implementacja (używa Critic do estymacji wartości)

Zalety PPO

Duża stabilność treningu
Prosty w implementacji i dostrajaniu
Dobra sample efficiency
Skuteczny zarówno w środowiskach dyskretnych, jak i ciągłych
Standard w RLHF (Reinforcement Learning from Human Feedback)

Zastosowania

Dostrajanie modeli językowych (InstructGPT, ChatGPT, Llama-3, Claude)
Gry komputerowe (OpenAI Five – Dota 2)
Robotyka
Autonomiczne pojazdy
Optymalizacja procesów przemysłowych

Ograniczenia

Wymaga dużej liczby interakcji ze środowiskiem
Czuły na hiperparametry (learning rate, clip range, GAE lambda)
Wolniejszy niż nowsze metody off-policy (np. SAC)

Aktualny status (2026)

PPO nadal pozostaje „workhorse” algorytmem RLHF i jest używany przy trenowaniu prawie wszystkich czołowych modeli językowych. Mimo pojawienia się nowszych metod (DPO, ORPO, GRPO, Kahneman-Tversky Optimization), PPO jest nadal szeroko stosowany ze względu na niezawodność i dojrzałość implementacji. Nowoczesne warianty łączą PPO z technikami takimi jak LoRA, hybrid reward models i synthetic data.