Next Token Prediction

Wprowadzenie

Next Token Prediction (NTP), znane również jako Causal Language Modeling, to dominująca strategia pre-treningu dla modeli autoregresyjnych (GPT, Llama, Mistral, Gemma, Qwen itp.).

Model otrzymuje sekwencję tokenów i uczy się przewidywać następny token na podstawie wszystkich poprzedzających. Jest to zadanie autoregresyjne – przewidywanie odbywa się sekwencyjnie.

Jak działa Next Token Prediction?

Podczas treningu model widzi tekst np.:

"Dzisiaj jest piękna pogoda, więc"

Celem jest przewidzenie kolejnego tokena (np. "poszedłem", "idę", "wyjdę" itd.). Model minimalizuje entropię krzyżową (cross-entropy loss) na każdym kolejnym tokenie.

Zalety Next Token Prediction

  • Bardzo naturalne uczenie generowania tekstu
  • Skaluje się doskonale z wielkością modelu i danymi
  • Nie wymaga etykietowanych danych (self-supervised)
  • Umożliwia modelowi naukę gramatyki, faktów, rozumowania i stylów
  • Łatwa implementacja maski causal attention (trójkątna maska)

Wady i ograniczenia

  • Jednokierunkowe kontekst (tylko przeszłość)
  • Może powodować exposure bias (rozbieżność między treningiem a inferencją)
  • Wolniejsza inferencja w porównaniu do modeli typu BERT (MLM)
  • Trudniejsze uczenie długoterminowego rozumowania bez dodatkowych technik

Porównanie z innymi Pre-training Objectives

  • vs Masked Language Modeling (MLM) – NTP jest lepsze do generowania, MLM do rozumienia dwukierunkowego
  • vs Span Corruption (T5) – NTP jest prostsze i bardziej skalowalne
  • vs Prefix Tuning / Prompt Tuning – NTP jest celem pre-treningu, tamte są metodami PEFT

Zastosowanie w nowoczesnych modelach (2026)

  • Wszystkie największe modele generatywne (GPT-4o, Claude 3.5, Llama 4, Grok, DeepSeek)
  • Podstawa do Supervised Fine-Tuning (SFT) i Post-training Alignment (RLHF/DPO)
  • Trening modeli multimodalnych (tekst + obraz, wideo)

Najlepsze praktyki

  • Używaj długich kontekstów podczas pre-treningu (do 128k tokenów)
  • Łącz z technikami takimi jak Flash Attention 2 i RoPE
  • Stosuj curriculum learning (zwiększanie długości sekwencji)
  • Dodawaj高质量 dane syntetyczne i kod źródłowy

Powiązane pojęcia

Causal Language Modeling • Autoregressive Models • Pre-training Objectives • GPT • Llama • Transformer • Masked Language Modeling • Post-training Alignment