Wprowadzenie
User Alignment (Dostosowanie do Użytkownika) oraz Preference Modeling to procesy, w których model AI jest dostosowywany tak, aby jego odpowiedzi były zgodne z preferencjami, wartościami i oczekiwaniami ludzi. Jest to jeden z najważniejszych elementów współczesnego trenowania dużych modeli językowych (LLM).
Dlaczego User Alignment jest potrzebny?
- Modele pretrenowane na surowych danych internetowych często generują szkodliwe, toksyczne lub niepożądane treści
- Użytkownicy oczekują od AI pomocności, uczciwości, bezpieczeństwa i zgodności z ich wartościami
- Zapewnienie spójności zachowania modelu w różnych kontekstach
- Zmniejszenie halucynacji i poprawa użyteczności
Główne techniki Preference Modeling
- RLHF (Reinforcement Learning from Human Feedback) – klasyczna metoda (używana m.in. w ChatGPT)
- DPO (Direct Preference Optimization) – nowocześniejsza, stabilniejsza metoda optymalizacji preferencji bez modelu nagrody
- ORPO (Odds Ratio Preference Optimization)
- KTO (Kahneman-Tversky Optimization)
- Constitutional AI (Anthropic) – model sam się ocenia według ustalonej „konstytucji”
- RLAIF (Reinforcement Learning from AI Feedback)
Proces Preference Modeling
- Preference Data Collection – zbieranie porównań odpowiedzi (którą odpowiedź użytkownik woli?)
- Reward Model Training – trenowanie modelu oceniającego jakość odpowiedzi
- Policy Optimization – optymalizacja modelu generatywnego względem modelu nagrody (PPO, DPO itp.)
- Iterative Alignment – powtarzanie procesu w celu ciągłego doskonalenia
Wyzwania User Alignment
- Preferencje ludzi są subiektywne i często sprzeczne
- Ryzyko nadmiernego cenzurowania modelu (over-alignment)
- Problem „alignment tax” – spadek wydajności po alignment
- Trudność skalowania human feedback na bardzo duże modele
- Problemy etyczne i kulturowe (czyje wartości mają być reprezentowane?)
Powiązane pojęcia
RLHF • DPO • Constitutional AI • AI Alignment • Human Feedback • Reward Modeling • Preference Optimization • Helpful, Honest, Harmless (HHH)