Wprowadzenie
Utility Functions w kontekście RLHF (Reinforcement Learning from Human Feedback) to matematyczna reprezentacja preferencji ludzkich. Model nagrody (Reward Model) jest w praktyce aproksymacją funkcji użyteczności, która przypisuje wartość liczbową każdej możliwej odpowiedzi modelu.
Czym jest Utility Function?
Funkcja użyteczności (utility function) r(x, y) przyjmuje prompt x i odpowiedź y, a zwraca wartość skalarną (nagrodę), która odzwierciedla, jak bardzo dana odpowiedź jest pożądana według preferencji ludzkich.
Rola Utility Function w RLHF
- Służy jako proxy ludzkich preferencji
- Traktowana jest jako nagroda w procesie Reinforcement Learning (zwykle PPO)
- Pozwala modelowi generatywnemu (policy) uczyć się maksymalizować oczekiwaną użyteczność
- Stanowi most między danymi preferencji (porównaniami A/B) a optymalizacją
Jak się to uczy?
Najczęściej stosowany jest Bradley-Terry Model. Dla dwóch odpowiedzi y₁ i y₂ model uczy się przewidywać prawdopodobieństwo, że człowiek woli y₁ nad y₂:
P(y₁ ≻ y₂ | x) = σ(r(x, y₁) - r(x, y₂))
gdzie σ to funkcja sigmoidalna.
Wyzwania Utility Functions
- Reward Hacking – model generatywny znajduje luki w funkcji nagrody
- Goodhart’s Law – optymalizacja metryki psuje prawdziwy cel
- Over-optimization – zbyt silna optymalizacja względem Reward Modelu pogarsza ogólną jakość
- Problem z subiektywnością i niestabilnością preferencji ludzkich
- Difficulty in representing complex values (etyka, prawda, pomocność jednocześnie)
Nowoczesne podejścia (2025–2026)
- DPO (Direct Preference Optimization) – całkowicie omija jawny Reward Model
- KTO (Kahneman-Tversky Optimization) – bazuje na psychologii decyzji
- ORPO, SimPO, SPO – nowe metody optymalizacji preferencji
- Constitutional AI + Self-Critique
Powiązane pojęcia
RLHF • Reward Model • Reward Hacking • Bradley-Terry Model • DPO • AI Alignment • Preference Optimization • Goodhart’s Law