RLHF (Reinforcement Learning from Human Feedback)

Wprowadzenie

RLHF (Reinforcement Learning from Human Feedback) to technika dostrajania dużych modeli językowych, która wykorzystuje opinie ludzi do kształtowania zachowania modelu. Dzięki RLHF modele takie jak ChatGPT, Claude czy Llama-3 stały się znacznie bardziej pomocne, zgodne z instrukcjami i bezpieczne.

Jak działa RLHF?

Proces składa się z trzech głównych etapów:

  1. Supervised Fine-Tuning (SFT) – model jest najpierw dostrajany na zbiorze wysokiej jakości przykładowych odpowiedzi napisanych przez ludzi.
  2. Trening modelu nagrody (Reward Model) – model uczy się przewidywać, która odpowiedź jest bardziej preferowana przez człowieka (porównanie par odpowiedzi).
  3. Optymalizacja przez RL (PPO) – model generuje odpowiedzi, a model nagrody przyznaje im punkty. Algorytm Proximal Policy Optimization (PPO) aktualizuje model, aby maksymalizować oczekiwaną nagrodę.

Historia RLHF

  • 2017–2019 – pierwsze prace nad RL z feedbackiem ludzkim (OpenAI, DeepMind)
  • 2022 – InstructGPT (OpenAI) – pierwszy duży sukces RLHF
  • 2022–2023 – ChatGPT i eksplozja popularności metody
  • 2024–2026 – ulepszenia: Constitutional AI, DPO, ORPO, SPIN, Kahneman-Tversky Optimization

Zalety RLHF

  • Znaczna poprawa użyteczności i zgodności z intencjami użytkownika
  • Lepsze zachowanie bezpieczeństwa (odmowa szkodliwych zapytań)
  • Możliwość kształtowania osobowości i stylu odpowiedzi
  • Skuteczniejsze niż czysty Supervised Fine-Tuning

Wady i wyzwania

  • Bardzo kosztowne i czasochłonne (wymaga tysięcy godzin pracy annotatorów)
  • Skalowalność – trudno zebrać feedback dla bardzo dużych modeli
  • Problem z „reward hacking” – model próbuje oszukać model nagrody
  • Stronniczość annotatorów (bias w danych)
  • Złożoność treningu RL (niestabilność PPO)

Alternatywy i ewolucja

  • DPO (Direct Preference Optimization) – prostsza i stabilniejsza metoda (2023–2024)
  • Constitutional AI (Anthropic) – model sam ocenia swoje odpowiedzi według zasad
  • Synthetic Feedback – generowanie preferencji przez silniejsze modele
  • RLAIF (Reinforcement Learning from AI Feedback)

Aktualny status (2026)

RLHF (oraz jego nowsze warianty) pozostaje kluczową techniką w budowaniu przydatnych, bezpiecznych i zgodnych z ludzkimi wartościami modeli językowych. Prawie wszystkie czołowe modele (Claude 4, GPT-4o, Grok 3, Llama 4, Gemini 2) są trenowane z użyciem ludzkiego lub AI feedbacku. Aktualne badania skupiają się na skalowaniu tej metody, redukcji kosztów oraz tworzeniu bardziej niezawodnych mechanizmów alignmentu w kierunku AGI.