Wprowadzenie
RLHF (Reinforcement Learning from Human Feedback) to technika dostrajania dużych modeli językowych, która wykorzystuje opinie ludzi do kształtowania zachowania modelu. Dzięki RLHF modele takie jak ChatGPT, Claude czy Llama-3 stały się znacznie bardziej pomocne, zgodne z instrukcjami i bezpieczne.
Jak działa RLHF?
Proces składa się z trzech głównych etapów:
- Supervised Fine-Tuning (SFT) – model jest najpierw dostrajany na zbiorze wysokiej jakości przykładowych odpowiedzi napisanych przez ludzi.
- Trening modelu nagrody (Reward Model) – model uczy się przewidywać, która odpowiedź jest bardziej preferowana przez człowieka (porównanie par odpowiedzi).
- Optymalizacja przez RL (PPO) – model generuje odpowiedzi, a model nagrody przyznaje im punkty. Algorytm Proximal Policy Optimization (PPO) aktualizuje model, aby maksymalizować oczekiwaną nagrodę.
Historia RLHF
- 2017–2019 – pierwsze prace nad RL z feedbackiem ludzkim (OpenAI, DeepMind)
- 2022 – InstructGPT (OpenAI) – pierwszy duży sukces RLHF
- 2022–2023 – ChatGPT i eksplozja popularności metody
- 2024–2026 – ulepszenia: Constitutional AI, DPO, ORPO, SPIN, Kahneman-Tversky Optimization
Zalety RLHF
- Znaczna poprawa użyteczności i zgodności z intencjami użytkownika
- Lepsze zachowanie bezpieczeństwa (odmowa szkodliwych zapytań)
- Możliwość kształtowania osobowości i stylu odpowiedzi
- Skuteczniejsze niż czysty Supervised Fine-Tuning
Wady i wyzwania
- Bardzo kosztowne i czasochłonne (wymaga tysięcy godzin pracy annotatorów)
- Skalowalność – trudno zebrać feedback dla bardzo dużych modeli
- Problem z „reward hacking” – model próbuje oszukać model nagrody
- Stronniczość annotatorów (bias w danych)
- Złożoność treningu RL (niestabilność PPO)
Alternatywy i ewolucja
- DPO (Direct Preference Optimization) – prostsza i stabilniejsza metoda (2023–2024)
- Constitutional AI (Anthropic) – model sam ocenia swoje odpowiedzi według zasad
- Synthetic Feedback – generowanie preferencji przez silniejsze modele
- RLAIF (Reinforcement Learning from AI Feedback)
Aktualny status (2026)
RLHF (oraz jego nowsze warianty) pozostaje kluczową techniką w budowaniu przydatnych, bezpiecznych i zgodnych z ludzkimi wartościami modeli językowych. Prawie wszystkie czołowe modele (Claude 4, GPT-4o, Grok 3, Llama 4, Gemini 2) są trenowane z użyciem ludzkiego lub AI feedbacku. Aktualne badania skupiają się na skalowaniu tej metody, redukcji kosztów oraz tworzeniu bardziej niezawodnych mechanizmów alignmentu w kierunku AGI.