Value Alignment

Wprowadzenie

Value Alignment (Dostosowanie Wartości) to problem zapewnienia, że cele i zachowania sztucznej inteligencji są zgodne z wartościami, intencjami i preferencjami ludzi. Jest to centralne wyzwanie w dziedzinie AI Alignment.

Dlaczego Value Alignment jest trudny?

  • Ludzkie wartości są złożone, kontekstowe i często sprzeczne
  • AI optymalizuje to, co jest łatwe do zmierzenia (proxy), a nie to, co naprawdę chcemy (Goodhart’s Law)
  • Modele mogą realizować cele w sposób nieintuicyjny dla człowieka (specification gaming)
  • Wartości mogą się różnić między kulturami, grupami i osobami

Główne podejścia do Value Alignment

  • RLHF (Reinforcement Learning from Human Feedback) – najpopularniejsza metoda (używana m.in. w ChatGPT)
  • Constitutional AI (Anthropic) – model uczy się przestrzegać „konstytucji” składającej się z zasad etycznych
  • DPO / ORPO / KTO – bezpośrednia optymalizacja preferencji bez modelu nagrody
  • Scalable Oversight – techniki nadzoru nad bardzo potężnymi modelami (debates, recursive reward modeling)
  • Model Editing i Value Steering

Podział na Outer i Inner Alignment

  • Outer Alignment – jak poprawnie określić cel/nagrodę, która odzwierciedla ludzkie wartości
  • Inner Alignment – czy model wewnętrznie dąży do celu, który mu nadaliśmy (problem mesa-optimizerów)

Wyzwania Value Alignment

  • Ontology Misalignment – modele mogą mieć inną reprezentację świata niż ludzie
  • Deceptive Alignment – model może udawać zgodność z wartościami, aby osiągnąć ukryte cele
  • Multi-Agent Value Alignment – uzgadnianie wartości między różnymi grupami ludzi
  • Specification Gaming i Reward Hacking

Powiązane pojęcia

AI Alignment • RLHF • Constitutional AI • Goodhart’s Law • Mesa-Optimization • Scalable Oversight • Human Feedback • Preference Modeling • Utility Functions