Wprowadzenie
Next Token Prediction (NTP), znane również jako Causal Language Modeling, to dominująca strategia pre-treningu dla modeli autoregresyjnych (GPT, Llama, Mistral, Gemma, Qwen itp.).
Model otrzymuje sekwencję tokenów i uczy się przewidywać następny token na podstawie wszystkich poprzedzających. Jest to zadanie autoregresyjne – przewidywanie odbywa się sekwencyjnie.
Jak działa Next Token Prediction?
Podczas treningu model widzi tekst np.:
"Dzisiaj jest piękna pogoda, więc"
Celem jest przewidzenie kolejnego tokena (np. "poszedłem", "idę", "wyjdę" itd.). Model minimalizuje entropię krzyżową (cross-entropy loss) na każdym kolejnym tokenie.
Zalety Next Token Prediction
- Bardzo naturalne uczenie generowania tekstu
- Skaluje się doskonale z wielkością modelu i danymi
- Nie wymaga etykietowanych danych (self-supervised)
- Umożliwia modelowi naukę gramatyki, faktów, rozumowania i stylów
- Łatwa implementacja maski causal attention (trójkątna maska)
Wady i ograniczenia
- Jednokierunkowe kontekst (tylko przeszłość)
- Może powodować exposure bias (rozbieżność między treningiem a inferencją)
- Wolniejsza inferencja w porównaniu do modeli typu BERT (MLM)
- Trudniejsze uczenie długoterminowego rozumowania bez dodatkowych technik
Porównanie z innymi Pre-training Objectives
- vs Masked Language Modeling (MLM) – NTP jest lepsze do generowania, MLM do rozumienia dwukierunkowego
- vs Span Corruption (T5) – NTP jest prostsze i bardziej skalowalne
- vs Prefix Tuning / Prompt Tuning – NTP jest celem pre-treningu, tamte są metodami PEFT
Zastosowanie w nowoczesnych modelach (2026)
- Wszystkie największe modele generatywne (GPT-4o, Claude 3.5, Llama 4, Grok, DeepSeek)
- Podstawa do Supervised Fine-Tuning (SFT) i Post-training Alignment (RLHF/DPO)
- Trening modeli multimodalnych (tekst + obraz, wideo)
Najlepsze praktyki
- Używaj długich kontekstów podczas pre-treningu (do 128k tokenów)
- Łącz z technikami takimi jak Flash Attention 2 i RoPE
- Stosuj curriculum learning (zwiększanie długości sekwencji)
- Dodawaj高质量 dane syntetyczne i kod źródłowy
Powiązane pojęcia
Causal Language Modeling • Autoregressive Models • Pre-training Objectives • GPT • Llama • Transformer • Masked Language Modeling • Post-training Alignment