Wprowadzenie
Kullback-Leibler Divergence (Divergencja Kullbacka-Leiblera), często oznaczana jako KL Divergence lub DKL, jest miarą różnicy między dwoma rozkładami prawdopodobieństwa. Jest jednym z najważniejszych pojęć teorii informacji i odgrywa kluczową rolę w nowoczesnym uczeniu maszynowym.
Definicja matematyczna
Dla dwóch rozkładów prawdopodobieństwa P (prawdziwy) i Q (przybliżony), KL Divergence definiujemy jako:
DKL(P ∥ Q) = Σx P(x) log(P(x) / Q(x))
Jest to miara asymetryczna — DKL(P ∥ Q) ≠ DKL(Q ∥ P).
Właściwości KL Divergence
- Zawsze nieujemna: DKL(P ∥ Q) ≥ 0
- Równa zero wtedy i tylko wtedy, gdy P = Q
- Nie jest metryką (nie spełnia symetrii)
- Blisko związana z entropią krzyżową (Cross Entropy)
Zastosowania Kullback-Leibler Divergence
- Variational Autoencoders (VAE) – minimalizacja KL w Evidence Lower Bound (ELBO)
- Knowledge Distillation – porównywanie rozkładów nauczyciela i ucznia
- Modele generatywne (GANs, Diffusion Models)
- Reinforcement Learning (optymalizacja polityki)
- Detekcja concept drift i anomaly detection
- Kompresja i regularizacja modeli
Zalety i wady
- Zalety: intuicyjna interpretacja informacyjna, bardzo szeroko stosowana, skuteczna w optymalizacji rozkładów
- Wady: asymetryczność, problemy numeryczne przy zerowych prawdopodobieństwach, może być niestabilna podczas treningu
Najlepsze praktyki (2026)
- Dodawanie małego epsilon dla stabilności numerycznej
- KL Annealing w modelach VAE
- Reverse KL Divergence w niektórych aplikacjach generatywnych
- Monitorowanie wartości KL podczas treningu
- Łączenie z innymi metrykami (np. Jensen-Shannon Divergence)
Powiązane pojęcia
KL Divergence • Cross Entropy • Entropy • Variational Autoencoders (VAE) • Evidence Lower Bound (ELBO) • Jensen-Shannon Divergence • Mutual Information • Knowledge Distillation