Kullback-Leibler Divergence

Wprowadzenie

Kullback-Leibler Divergence (Divergencja Kullbacka-Leiblera), często oznaczana jako KL Divergence lub DKL, jest miarą różnicy między dwoma rozkładami prawdopodobieństwa. Jest jednym z najważniejszych pojęć teorii informacji i odgrywa kluczową rolę w nowoczesnym uczeniu maszynowym.

Definicja matematyczna

Dla dwóch rozkładów prawdopodobieństwa P (prawdziwy) i Q (przybliżony), KL Divergence definiujemy jako:

DKL(P ∥ Q) = Σx P(x) log(P(x) / Q(x))

Jest to miara asymetryczna — DKL(P ∥ Q) ≠ DKL(Q ∥ P).

Właściwości KL Divergence

  • Zawsze nieujemna: DKL(P ∥ Q) ≥ 0
  • Równa zero wtedy i tylko wtedy, gdy P = Q
  • Nie jest metryką (nie spełnia symetrii)
  • Blisko związana z entropią krzyżową (Cross Entropy)

Zastosowania Kullback-Leibler Divergence

  • Variational Autoencoders (VAE) – minimalizacja KL w Evidence Lower Bound (ELBO)
  • Knowledge Distillation – porównywanie rozkładów nauczyciela i ucznia
  • Modele generatywne (GANs, Diffusion Models)
  • Reinforcement Learning (optymalizacja polityki)
  • Detekcja concept drift i anomaly detection
  • Kompresja i regularizacja modeli

Zalety i wady

  • Zalety: intuicyjna interpretacja informacyjna, bardzo szeroko stosowana, skuteczna w optymalizacji rozkładów
  • Wady: asymetryczność, problemy numeryczne przy zerowych prawdopodobieństwach, może być niestabilna podczas treningu

Najlepsze praktyki (2026)

  • Dodawanie małego epsilon dla stabilności numerycznej
  • KL Annealing w modelach VAE
  • Reverse KL Divergence w niektórych aplikacjach generatywnych
  • Monitorowanie wartości KL podczas treningu
  • Łączenie z innymi metrykami (np. Jensen-Shannon Divergence)

Powiązane pojęcia

KL Divergence • Cross Entropy • Entropy • Variational Autoencoders (VAE) • Evidence Lower Bound (ELBO) • Jensen-Shannon Divergence • Mutual Information • Knowledge Distillation