Kullback-Leibler Divergence | Divergencja Kullbacka-Leiblera | Encyklopedia AI

Wprowadzenie

Kullback-Leibler Divergence (Divergencja Kullbacka-Leiblera), często oznaczana jako KL Divergence lub D_KL, jest miarą różnicy między dwoma rozkładami prawdopodobieństwa. Jest jednym z najważniejszych pojęć teorii informacji i odgrywa kluczową rolę w nowoczesnym uczeniu maszynowym.

Definicja matematyczna

Dla dwóch rozkładów prawdopodobieństwa P (prawdziwy) i Q (przybliżony), KL Divergence definiujemy jako:

D_KL(P ∥ Q) = Σ_x P(x) log(P(x) / Q(x))

Jest to miara asymetryczna — D_KL(P ∥ Q) ≠ D_KL(Q ∥ P).

Właściwości KL Divergence

Zawsze nieujemna: D_KL(P ∥ Q) ≥ 0
Równa zero wtedy i tylko wtedy, gdy P = Q
Nie jest metryką (nie spełnia symetrii)
Blisko związana z entropią krzyżową (Cross Entropy)

Zastosowania Kullback-Leibler Divergence

Variational Autoencoders (VAE) – minimalizacja KL w Evidence Lower Bound (ELBO)
Knowledge Distillation – porównywanie rozkładów nauczyciela i ucznia
Modele generatywne (GANs, Diffusion Models)
Reinforcement Learning (optymalizacja polityki)
Detekcja concept drift i anomaly detection
Kompresja i regularizacja modeli

Zalety i wady

Zalety: intuicyjna interpretacja informacyjna, bardzo szeroko stosowana, skuteczna w optymalizacji rozkładów
Wady: asymetryczność, problemy numeryczne przy zerowych prawdopodobieństwach, może być niestabilna podczas treningu

Najlepsze praktyki (2026)

Dodawanie małego epsilon dla stabilności numerycznej
KL Annealing w modelach VAE
Reverse KL Divergence w niektórych aplikacjach generatywnych
Monitorowanie wartości KL podczas treningu
Łączenie z innymi metrykami (np. Jensen-Shannon Divergence)

Powiązane pojęcia

Evidence Lower Bound→Deep Knowledge Distillation→Variational Inference→Adversarial Machine Learning→Decentralized Machine Learning→Deep Learning Theory→Double Machine Learning→Extreme Learning Machine→Interactive Machine Learning→Machine Learning→