Wprowadzenie
Top-P Sampling, znane również jako Nucleus Sampling, to jedna z najpopularniejszych i najbardziej skutecznych metod dekodowania w dużych modelach językowych. Zostało zaproponowane w 2019 roku przez Holtzmana i in.
Jak działa Top-P?
Zamiast brać stałą liczbę K tokenów (jak w Top-K), Top-P działa dynamicznie:
- Model sortuje tokeny według prawdopodobieństwa malejąco
- Dodaje prawdopodobieństwa, aż ich suma przekroczy wartość parametru p
- Wybiera losowo spośród tej „jądrowej” puli tokenów (nucleus)
Top-P vs Top-K
- Top-K – stała liczba tokenów (np. 40)
- Top-P – dynamiczna liczba tokenów (zależna od kontekstu)
- Top-P lepiej dostosowuje się do sytuacji – w pewnych kontekstach wybiera więcej opcji, w innych mniej
Typowe wartości parametru p
- p = 0.1 – 0.3 → bardzo deterministyczne odpowiedzi
- p = 0.7 – 0.9 → dobra równowaga (najczęściej rekomendowane)
- p = 0.95 – 1.0 → wysoka kreatywność i różnorodność
Zalety Nucleus Sampling
- Lepsza jakość tekstu niż przy czystym Temperature
- Unika tokenów o bardzo niskim prawdopodobieństwie
- Automatycznie dostosowuje się do pewności modelu
- Mniej „głupich” lub niespójnych odpowiedzi
Aktualny status (2026)
Top-P (Nucleus Sampling) jest obecnie jedną z najchętniej używanych strategii dekodowania obok Temperature. Większość nowoczesnych interfejsów LLM (ChatGPT, Claude, Grok, Gemini) pozwala na jednoczesne ustawianie Temperature + Top-P, co daje użytkownikom bardzo precyzyjną kontrolę nad kreatywnością i spójnością generowanego tekstu.