Post-training Alignment

Wprowadzenie

Post-training Alignment to kluczowy etap w procesie tworzenia nowoczesnych dużych modeli językowych (LLM). Polega na dostosowaniu modelu po fazie pre-trainingu i supervised fine-tuningu (SFT), tak aby był zgodny z ludzkimi wartościami – był pomocny, uczciwy, bezpieczny i unikał szkodliwych zachowań.

Dlaczego Post-training Alignment jest potrzebny?

Modele po pre-trainingu potrafią bardzo dobrze przewidywać tekst, ale często generują treści toksyczne, halucynacje, stronnicze lub niebezpieczne. Alignment ma na celu ukształtowanie pożądanego zachowania modelu.

Główne metody Post-training Alignment

  • RLHF (Reinforcement Learning from Human Feedback) – najsłynniejsza metoda (używana m.in. w ChatGPT). Polega na uczeniu modelu na podstawie rankingów odpowiedzi przez ludzi.
  • DPO (Direct Preference Optimization) – nowocześniejsza, stabilniejsza metoda, która optymalizuje preferencje bezpośrednio, bez uczenia osobnego modelu nagrody.
  • Constitutional AI – metoda Anthropica, w której model sam siebie ocenia według zdefiniowanej „konstytucji”.
  • KTO (Kahneman-Tversky Optimization) – metoda oparta na ludzkiej psychologii decyzji.
  • ORPO (Odds Ratio Preference Optimization) – łączy alignment z fine-tuningiem w jednym etapie.
  • Self-Rewarding Models – model sam siebie ocenia i poprawia.

Etapy typowego Alignment Pipeline

  • Supervised Fine-Tuning (SFT)
  • Reward Model Training
  • Reinforcement Learning (PPO lub DPO)
  • Red Teaming & Safety Testing
  • Iteracyjna poprawa (multi-stage alignment)

Zalety i wyzwania

  • Zalety: Znaczna poprawa użyteczności, bezpieczeństwa i zgodności z instrukcjami
  • Wyzwania: Wysoki koszt (dużo danych ludzkich), ryzyko over-alignment (model staje się zbyt ostrożny), problem z „alignment tax” (spadek wydajności)

Najlepsze praktyki (2026)

  • Łącz SFT + DPO zamiast klasycznego RLHF (stabilniejsze)
  • Używaj syntetycznych danych generowanych przez silniejsze modele
  • Przeprowadzaj intensywne red teaming
  • Stosuj multi-objective alignment (pomocność + prawda + bezpieczeństwo)
  • Monitoruj alignment drift podczas dalszego treningu

Powiązane pojęcia

RLHF • DPO • SFT • Constitutional AI • AI Safety • Reward Modeling • Preference Optimization • Red Teaming • Human Feedback • LLM Alignment