Utility Functions w RLHF | Funkcje Użyteczności w Dostosowywaniu AI

Wprowadzenie

Utility Functions w kontekście RLHF (Reinforcement Learning from Human Feedback) to matematyczna reprezentacja preferencji ludzkich. Model nagrody (Reward Model) jest w praktyce aproksymacją funkcji użyteczności, która przypisuje wartość liczbową każdej możliwej odpowiedzi modelu.

Czym jest Utility Function?

Funkcja użyteczności (utility function) r(x, y) przyjmuje prompt x i odpowiedź y, a zwraca wartość skalarną (nagrodę), która odzwierciedla, jak bardzo dana odpowiedź jest pożądana według preferencji ludzkich.

Rola Utility Function w RLHF

Służy jako proxy ludzkich preferencji
Traktowana jest jako nagroda w procesie Reinforcement Learning (zwykle PPO)
Pozwala modelowi generatywnemu (policy) uczyć się maksymalizować oczekiwaną użyteczność
Stanowi most między danymi preferencji (porównaniami A/B) a optymalizacją

Jak się to uczy?

Najczęściej stosowany jest Bradley-Terry Model. Dla dwóch odpowiedzi y₁ i y₂ model uczy się przewidywać prawdopodobieństwo, że człowiek woli y₁ nad y₂:

P(y₁ ≻ y₂ | x) = σ(r(x, y₁) - r(x, y₂))

gdzie σ to funkcja sigmoidalna.

Wyzwania Utility Functions

Reward Hacking – model generatywny znajduje luki w funkcji nagrody
Goodhart’s Law – optymalizacja metryki psuje prawdziwy cel
Over-optimization – zbyt silna optymalizacja względem Reward Modelu pogarsza ogólną jakość
Problem z subiektywnością i niestabilnością preferencji ludzkich
Difficulty in representing complex values (etyka, prawda, pomocność jednocześnie)

Nowoczesne podejścia (2025–2026)

DPO (Direct Preference Optimization) – całkowicie omija jawny Reward Model
KTO (Kahneman-Tversky Optimization) – bazuje na psychologii decyzji
ORPO, SimPO, SPO – nowe metody optymalizacji preferencji
Constitutional AI + Self-Critique

Powiązane pojęcia

Causal Reinforcement Learning→Deep Reinforcement Learning→Hierarchical Reinforcement Learning→Inverse Reinforcement Learning→Advanced Loss Functions→Bessel Functions→Influence Functions→Dialogue Policy Learning→Human Feedback→Reward Modeling→