Preference Optimization (DPO, KTO, ORPO)

Wprowadzenie

Preference Optimization to nowoczesne podejście do Post-training Alignment, które bezpośrednio optymalizuje model na podstawie par preferencji (która odpowiedź jest lepsza), bez potrzeby trenowania osobnego modelu nagrody (Reward Model) jak w klasycznym RLHF.

Główne metody Preference Optimization

  • DPO (Direct Preference Optimization) – najpopularniejsza metoda. Przekształca problem preferencji w prostą funkcję straty binarnej.
  • KTO (Kahneman-Tversky Optimization) – metoda inspirowana teorią perspektywy Kahnemana i Tversky’ego. Optymalizuje na podstawie „zwycięstw” i „porażek” bez konieczności par preferencji.
  • ORPO (Odds Ratio Preference Optimization) – łączy alignment z fine-tuningiem w jednym etapie, dodając karę za generowanie niepożądanych odpowiedzi.

Porównanie DPO vs KTO vs ORPO

  • DPO – bardzo stabilny, prosty w implementacji, wymaga par (wygrana/przegrana)
  • KTO – działa na pojedynczych odpowiedziach (nie wymaga par), lepiej radzi sobie z danymi o różnej jakości
  • ORPO – najwydajniejszy (jeden etap treningu), dobrze zachowuje wiedzę modelu

Zalety Preference Optimization

  • Znacznie prostsze i stabilniejsze niż RLHF z PPO
  • Niższe koszty obliczeniowe
  • Nie wymaga trenowania osobnego Reward Modelu
  • Lepsza stabilność treningu i mniejsze ryzyko zapominania wiedzy
  • Łatwiejsze skalowanie na otwarte modele (Llama, Mistral, Qwen itp.)

Zastosowania w praktyce (2026)

  • Dostrojenie modeli open-source do chatbota
  • Tworzenie asystentów zgodnych z wartościami firmy
  • Szybki alignment przy ograniczonych zasobach
  • Łączenie z LoRA/QLoRA dla efektywności

Najlepsze praktyki

  • DPO jest dobrym domyślnym wyborem dla większości przypadków
  • KTO sprawdza się lepiej przy danych nieparowanych
  • ORPO jest świetny do jednoczesnego SFT + Alignment
  • Zawsze używaj wysokojakościowych danych preferencji
  • Łącz z technikami takimi jak SimPO lub iterative DPO

Powiązane pojęcia

RLHF • DPO • KTO • ORPO • Post-training Alignment • Direct Preference Optimization • SFT • AI Alignment • Preference Data • Reward Modeling