Utility Functions w RLHF

Wprowadzenie

Utility Functions w kontekście RLHF (Reinforcement Learning from Human Feedback) to matematyczna reprezentacja preferencji ludzkich. Model nagrody (Reward Model) jest w praktyce aproksymacją funkcji użyteczności, która przypisuje wartość liczbową każdej możliwej odpowiedzi modelu.

Czym jest Utility Function?

Funkcja użyteczności (utility function) r(x, y) przyjmuje prompt x i odpowiedź y, a zwraca wartość skalarną (nagrodę), która odzwierciedla, jak bardzo dana odpowiedź jest pożądana według preferencji ludzkich.

Rola Utility Function w RLHF

  • Służy jako proxy ludzkich preferencji
  • Traktowana jest jako nagroda w procesie Reinforcement Learning (zwykle PPO)
  • Pozwala modelowi generatywnemu (policy) uczyć się maksymalizować oczekiwaną użyteczność
  • Stanowi most między danymi preferencji (porównaniami A/B) a optymalizacją

Jak się to uczy?

Najczęściej stosowany jest Bradley-Terry Model. Dla dwóch odpowiedzi y₁ i y₂ model uczy się przewidywać prawdopodobieństwo, że człowiek woli y₁ nad y₂:

P(y₁ ≻ y₂ | x) = σ(r(x, y₁) - r(x, y₂))

gdzie σ to funkcja sigmoidalna.

Wyzwania Utility Functions

  • Reward Hacking – model generatywny znajduje luki w funkcji nagrody
  • Goodhart’s Law – optymalizacja metryki psuje prawdziwy cel
  • Over-optimization – zbyt silna optymalizacja względem Reward Modelu pogarsza ogólną jakość
  • Problem z subiektywnością i niestabilnością preferencji ludzkich
  • Difficulty in representing complex values (etyka, prawda, pomocność jednocześnie)

Nowoczesne podejścia (2025–2026)

  • DPO (Direct Preference Optimization) – całkowicie omija jawny Reward Model
  • KTO (Kahneman-Tversky Optimization) – bazuje na psychologii decyzji
  • ORPO, SimPO, SPO – nowe metody optymalizacji preferencji
  • Constitutional AI + Self-Critique

Powiązane pojęcia

RLHF • Reward Model • Reward Hacking • Bradley-Terry Model • DPO • AI Alignment • Preference Optimization • Goodhart’s Law