A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

V

Value Alignment

Wprowadzenie

Value Alignment (Dostosowanie Wartości) to problem zapewnienia, że cele i zachowania sztucznej inteligencji są zgodne z wartościami, intencjami i preferencjami ludzi. Jest to centralne wyzwanie w dziedzinie AI Alignment.

Dlaczego Value Alignment jest trudny?

Ludzkie wartości są złożone, kontekstowe i często sprzeczne
AI optymalizuje to, co jest łatwe do zmierzenia (proxy), a nie to, co naprawdę chcemy (Goodhart’s Law)
Modele mogą realizować cele w sposób nieintuicyjny dla człowieka (specification gaming)
Wartości mogą się różnić między kulturami, grupami i osobami

Główne podejścia do Value Alignment

RLHF (Reinforcement Learning from Human Feedback) – najpopularniejsza metoda (używana m.in. w ChatGPT)
Constitutional AI (Anthropic) – model uczy się przestrzegać „konstytucji” składającej się z zasad etycznych
DPO / ORPO / KTO – bezpośrednia optymalizacja preferencji bez modelu nagrody
Scalable Oversight – techniki nadzoru nad bardzo potężnymi modelami (debates, recursive reward modeling)
Model Editing i Value Steering

Podział na Outer i Inner Alignment

Outer Alignment – jak poprawnie określić cel/nagrodę, która odzwierciedla ludzkie wartości
Inner Alignment – czy model wewnętrznie dąży do celu, który mu nadaliśmy (problem mesa-optimizerów)

Wyzwania Value Alignment

Ontology Misalignment – modele mogą mieć inną reprezentację świata niż ludzie
Deceptive Alignment – model może udawać zgodność z wartościami, aby osiągnąć ukryte cele
Multi-Agent Value Alignment – uzgadnianie wartości między różnymi grupami ludzi
Specification Gaming i Reward Hacking

Powiązane pojęcia

Alignment Problem→Safety Alignment→AI Alignment→User Alignment→Boundary Value Problem→Corpus Alignment→Deep Alignment→Deliberative Alignment→Jig Alignment AI→Causal Reinforcement Learning→