Wprowadzenie
Post-training Alignment to kluczowy etap w procesie tworzenia nowoczesnych dużych modeli językowych (LLM). Polega na dostosowaniu modelu po fazie pre-trainingu i supervised fine-tuningu (SFT), tak aby był zgodny z ludzkimi wartościami – był pomocny, uczciwy, bezpieczny i unikał szkodliwych zachowań.
Dlaczego Post-training Alignment jest potrzebny?
Modele po pre-trainingu potrafią bardzo dobrze przewidywać tekst, ale często generują treści toksyczne, halucynacje, stronnicze lub niebezpieczne. Alignment ma na celu ukształtowanie pożądanego zachowania modelu.
Główne metody Post-training Alignment
- RLHF (Reinforcement Learning from Human Feedback) – najsłynniejsza metoda (używana m.in. w ChatGPT). Polega na uczeniu modelu na podstawie rankingów odpowiedzi przez ludzi.
- DPO (Direct Preference Optimization) – nowocześniejsza, stabilniejsza metoda, która optymalizuje preferencje bezpośrednio, bez uczenia osobnego modelu nagrody.
- Constitutional AI – metoda Anthropica, w której model sam siebie ocenia według zdefiniowanej „konstytucji”.
- KTO (Kahneman-Tversky Optimization) – metoda oparta na ludzkiej psychologii decyzji.
- ORPO (Odds Ratio Preference Optimization) – łączy alignment z fine-tuningiem w jednym etapie.
- Self-Rewarding Models – model sam siebie ocenia i poprawia.
Etapy typowego Alignment Pipeline
- Supervised Fine-Tuning (SFT)
- Reward Model Training
- Reinforcement Learning (PPO lub DPO)
- Red Teaming & Safety Testing
- Iteracyjna poprawa (multi-stage alignment)
Zalety i wyzwania
- Zalety: Znaczna poprawa użyteczności, bezpieczeństwa i zgodności z instrukcjami
- Wyzwania: Wysoki koszt (dużo danych ludzkich), ryzyko over-alignment (model staje się zbyt ostrożny), problem z „alignment tax” (spadek wydajności)
Najlepsze praktyki (2026)
- Łącz SFT + DPO zamiast klasycznego RLHF (stabilniejsze)
- Używaj syntetycznych danych generowanych przez silniejsze modele
- Przeprowadzaj intensywne red teaming
- Stosuj multi-objective alignment (pomocność + prawda + bezpieczeństwo)
- Monitoruj alignment drift podczas dalszego treningu
Powiązane pojęcia
RLHF • DPO • SFT • Constitutional AI • AI Safety • Reward Modeling • Preference Optimization • Red Teaming • Human Feedback • LLM Alignment