Preference Optimization (DPO, KTO, ORPO) – Nowoczesne Metody Alignmentu LLM

Wprowadzenie

Preference Optimization to nowoczesne podejście do Post-training Alignment, które bezpośrednio optymalizuje model na podstawie par preferencji (która odpowiedź jest lepsza), bez potrzeby trenowania osobnego modelu nagrody (Reward Model) jak w klasycznym RLHF.

Główne metody Preference Optimization

DPO (Direct Preference Optimization) – najpopularniejsza metoda. Przekształca problem preferencji w prostą funkcję straty binarnej.
KTO (Kahneman-Tversky Optimization) – metoda inspirowana teorią perspektywy Kahnemana i Tversky’ego. Optymalizuje na podstawie „zwycięstw” i „porażek” bez konieczności par preferencji.
ORPO (Odds Ratio Preference Optimization) – łączy alignment z fine-tuningiem w jednym etapie, dodając karę za generowanie niepożądanych odpowiedzi.

Porównanie DPO vs KTO vs ORPO

DPO – bardzo stabilny, prosty w implementacji, wymaga par (wygrana/przegrana)
KTO – działa na pojedynczych odpowiedziach (nie wymaga par), lepiej radzi sobie z danymi o różnej jakości
ORPO – najwydajniejszy (jeden etap treningu), dobrze zachowuje wiedzę modelu

Zalety Preference Optimization

Znacznie prostsze i stabilniejsze niż RLHF z PPO
Niższe koszty obliczeniowe
Nie wymaga trenowania osobnego Reward Modelu
Lepsza stabilność treningu i mniejsze ryzyko zapominania wiedzy
Łatwiejsze skalowanie na otwarte modele (Llama, Mistral, Qwen itp.)

Zastosowania w praktyce (2026)

Dostrojenie modeli open-source do chatbota
Tworzenie asystentów zgodnych z wartościami firmy
Szybki alignment przy ograniczonych zasobach
Łączenie z LoRA/QLoRA dla efektywności

Najlepsze praktyki

DPO jest dobrym domyślnym wyborem dla większości przypadków
KTO sprawdza się lepiej przy danych nieparowanych
ORPO jest świetny do jednoczesnego SFT + Alignment
Zawsze używaj wysokojakościowych danych preferencji
Łącz z technikami takimi jak SimPO lub iterative DPO

Powiązane pojęcia

Direct Preference Optimization→Optimization→Cargo Optimization→Cnc Optimization→Combustion Optimization→Conversion Optimization AI→Convex Optimization→Cooling System Optimization→Deep Optimization→Deep Preference Model→