Top-P (Nucleus Sampling)

Wprowadzenie

Top-P Sampling, znane również jako Nucleus Sampling, to jedna z najpopularniejszych i najbardziej skutecznych metod dekodowania w dużych modelach językowych. Zostało zaproponowane w 2019 roku przez Holtzmana i in.

Jak działa Top-P?

Zamiast brać stałą liczbę K tokenów (jak w Top-K), Top-P działa dynamicznie:

  1. Model sortuje tokeny według prawdopodobieństwa malejąco
  2. Dodaje prawdopodobieństwa, aż ich suma przekroczy wartość parametru p
  3. Wybiera losowo spośród tej „jądrowej” puli tokenów (nucleus)

Top-P vs Top-K

  • Top-K – stała liczba tokenów (np. 40)
  • Top-P – dynamiczna liczba tokenów (zależna od kontekstu)
  • Top-P lepiej dostosowuje się do sytuacji – w pewnych kontekstach wybiera więcej opcji, w innych mniej

Typowe wartości parametru p

  • p = 0.1 – 0.3 → bardzo deterministyczne odpowiedzi
  • p = 0.7 – 0.9 → dobra równowaga (najczęściej rekomendowane)
  • p = 0.95 – 1.0 → wysoka kreatywność i różnorodność

Zalety Nucleus Sampling

  • Lepsza jakość tekstu niż przy czystym Temperature
  • Unika tokenów o bardzo niskim prawdopodobieństwie
  • Automatycznie dostosowuje się do pewności modelu
  • Mniej „głupich” lub niespójnych odpowiedzi

Aktualny status (2026)

Top-P (Nucleus Sampling) jest obecnie jedną z najchętniej używanych strategii dekodowania obok Temperature. Większość nowoczesnych interfejsów LLM (ChatGPT, Claude, Grok, Gemini) pozwala na jednoczesne ustawianie Temperature + Top-P, co daje użytkownikom bardzo precyzyjną kontrolę nad kreatywnością i spójnością generowanego tekstu.