RLHF (Reinforcement Learning from Human Feedback)

Wprowadzenie

RLHF (Reinforcement Learning from Human Feedback) to technika dostrajania dużych modeli językowych, która wykorzystuje opinie ludzi do kształtowania zachowania modelu. Dzięki RLHF modele takie jak ChatGPT, Claude czy Llama-3 stały się znacznie bardziej pomocne, zgodne z instrukcjami i bezpieczne.

Jak działa RLHF?

Proces składa się z trzech głównych etapów:

Supervised Fine-Tuning (SFT) – model jest najpierw dostrajany na zbiorze wysokiej jakości przykładowych odpowiedzi napisanych przez ludzi.
Trening modelu nagrody (Reward Model) – model uczy się przewidywać, która odpowiedź jest bardziej preferowana przez człowieka (porównanie par odpowiedzi).
Optymalizacja przez RL (PPO) – model generuje odpowiedzi, a model nagrody przyznaje im punkty. Algorytm Proximal Policy Optimization (PPO) aktualizuje model, aby maksymalizować oczekiwaną nagrodę.

Historia RLHF

2017–2019 – pierwsze prace nad RL z feedbackiem ludzkim (OpenAI, DeepMind)
2022 – InstructGPT (OpenAI) – pierwszy duży sukces RLHF
2022–2023 – ChatGPT i eksplozja popularności metody
2024–2026 – ulepszenia: Constitutional AI, DPO, ORPO, SPIN, Kahneman-Tversky Optimization

Zalety RLHF

Znaczna poprawa użyteczności i zgodności z intencjami użytkownika
Lepsze zachowanie bezpieczeństwa (odmowa szkodliwych zapytań)
Możliwość kształtowania osobowości i stylu odpowiedzi
Skuteczniejsze niż czysty Supervised Fine-Tuning

Wady i wyzwania

Bardzo kosztowne i czasochłonne (wymaga tysięcy godzin pracy annotatorów)
Skalowalność – trudno zebrać feedback dla bardzo dużych modeli
Problem z „reward hacking” – model próbuje oszukać model nagrody
Stronniczość annotatorów (bias w danych)
Złożoność treningu RL (niestabilność PPO)

Alternatywy i ewolucja

DPO (Direct Preference Optimization) – prostsza i stabilniejsza metoda (2023–2024)
Constitutional AI (Anthropic) – model sam ocenia swoje odpowiedzi według zasad
Synthetic Feedback – generowanie preferencji przez silniejsze modele
RLAIF (Reinforcement Learning from AI Feedback)

Aktualny status (2026)

RLHF (oraz jego nowsze warianty) pozostaje kluczową techniką w budowaniu przydatnych, bezpiecznych i zgodnych z ludzkimi wartościami modeli językowych. Prawie wszystkie czołowe modele (Claude 4, GPT-4o, Grok 3, Llama 4, Gemini 2) są trenowane z użyciem ludzkiego lub AI feedbacku. Aktualne badania skupiają się na skalowaniu tej metody, redukcji kosztów oraz tworzeniu bardziej niezawodnych mechanizmów alignmentu w kierunku AGI.