Wprowadzenie
Preference Optimization to nowoczesne podejście do Post-training Alignment, które bezpośrednio optymalizuje model na podstawie par preferencji (która odpowiedź jest lepsza), bez potrzeby trenowania osobnego modelu nagrody (Reward Model) jak w klasycznym RLHF.
Główne metody Preference Optimization
- DPO (Direct Preference Optimization) – najpopularniejsza metoda. Przekształca problem preferencji w prostą funkcję straty binarnej.
- KTO (Kahneman-Tversky Optimization) – metoda inspirowana teorią perspektywy Kahnemana i Tversky’ego. Optymalizuje na podstawie „zwycięstw” i „porażek” bez konieczności par preferencji.
- ORPO (Odds Ratio Preference Optimization) – łączy alignment z fine-tuningiem w jednym etapie, dodając karę za generowanie niepożądanych odpowiedzi.
Porównanie DPO vs KTO vs ORPO
- DPO – bardzo stabilny, prosty w implementacji, wymaga par (wygrana/przegrana)
- KTO – działa na pojedynczych odpowiedziach (nie wymaga par), lepiej radzi sobie z danymi o różnej jakości
- ORPO – najwydajniejszy (jeden etap treningu), dobrze zachowuje wiedzę modelu
Zalety Preference Optimization
- Znacznie prostsze i stabilniejsze niż RLHF z PPO
- Niższe koszty obliczeniowe
- Nie wymaga trenowania osobnego Reward Modelu
- Lepsza stabilność treningu i mniejsze ryzyko zapominania wiedzy
- Łatwiejsze skalowanie na otwarte modele (Llama, Mistral, Qwen itp.)
Zastosowania w praktyce (2026)
- Dostrojenie modeli open-source do chatbota
- Tworzenie asystentów zgodnych z wartościami firmy
- Szybki alignment przy ograniczonych zasobach
- Łączenie z LoRA/QLoRA dla efektywności
Najlepsze praktyki
- DPO jest dobrym domyślnym wyborem dla większości przypadków
- KTO sprawdza się lepiej przy danych nieparowanych
- ORPO jest świetny do jednoczesnego SFT + Alignment
- Zawsze używaj wysokojakościowych danych preferencji
- Łącz z technikami takimi jak SimPO lub iterative DPO
Powiązane pojęcia
RLHF • DPO • KTO • ORPO • Post-training Alignment • Direct Preference Optimization • SFT • AI Alignment • Preference Data • Reward Modeling