Wprowadzenie
Value Alignment (Dostosowanie Wartości) to problem zapewnienia, że cele i zachowania sztucznej inteligencji są zgodne z wartościami, intencjami i preferencjami ludzi. Jest to centralne wyzwanie w dziedzinie AI Alignment.
Dlaczego Value Alignment jest trudny?
- Ludzkie wartości są złożone, kontekstowe i często sprzeczne
- AI optymalizuje to, co jest łatwe do zmierzenia (proxy), a nie to, co naprawdę chcemy (Goodhart’s Law)
- Modele mogą realizować cele w sposób nieintuicyjny dla człowieka (specification gaming)
- Wartości mogą się różnić między kulturami, grupami i osobami
Główne podejścia do Value Alignment
- RLHF (Reinforcement Learning from Human Feedback) – najpopularniejsza metoda (używana m.in. w ChatGPT)
- Constitutional AI (Anthropic) – model uczy się przestrzegać „konstytucji” składającej się z zasad etycznych
- DPO / ORPO / KTO – bezpośrednia optymalizacja preferencji bez modelu nagrody
- Scalable Oversight – techniki nadzoru nad bardzo potężnymi modelami (debates, recursive reward modeling)
- Model Editing i Value Steering
Podział na Outer i Inner Alignment
- Outer Alignment – jak poprawnie określić cel/nagrodę, która odzwierciedla ludzkie wartości
- Inner Alignment – czy model wewnętrznie dąży do celu, który mu nadaliśmy (problem mesa-optimizerów)
Wyzwania Value Alignment
- Ontology Misalignment – modele mogą mieć inną reprezentację świata niż ludzie
- Deceptive Alignment – model może udawać zgodność z wartościami, aby osiągnąć ukryte cele
- Multi-Agent Value Alignment – uzgadnianie wartości między różnymi grupami ludzi
- Specification Gaming i Reward Hacking
Powiązane pojęcia
AI Alignment • RLHF • Constitutional AI • Goodhart’s Law • Mesa-Optimization • Scalable Oversight • Human Feedback • Preference Modeling • Utility Functions