Wprowadzenie
KL Divergence (Kullback-Leibler Divergence), zwana także divergencją Kullbacka-Leiblera, to miara asymetrycznej różnicy między dwoma rozkładami prawdopodobieństwa. Jest jednym z fundamentalnych pojęć teorii informacji i odgrywa kluczową rolę w nowoczesnym uczeniu maszynowym.
Definicja matematyczna
Dla dwóch rozkładów prawdopodobieństwa P i Q, KL Divergence definiujemy jako:
DKL(P ∥ Q) = Σ P(x) log(P(x) / Q(x))
Jest to miara asymetryczna – DKL(P ∥ Q) ≠ DKL(Q ∥ P).
Zastosowania KL Divergence
- Variational Autoencoders (VAE) – minimalizacja KL Divergence w Evidence Lower Bound (ELBO)
- Modele generatywne (GANs, Diffusion Models)
- Reinforcement Learning (np. w optymalizacji polityki)
- Knowledge Distillation (miara podobieństwa rozkładów wyjściowych)
- Detekcja dryfu danych (concept drift)
- Kompresja informacji i feature selection
Właściwości
- KL Divergence ≥ 0 (zawsze nieujemna)
- DKL(P ∥ Q) = 0 wtedy i tylko wtedy, gdy P = Q
- Nie jest metryką (nie spełnia symetrii ani trójkąta nierówności)
- Blisko związana z entropią krzyżową (Cross Entropy)
Zalety i wady
- Zalety: intuicyjna interpretacja informacyjna, szeroko stosowana w uczeniu głębokim, skuteczna w optymalizacji rozkładów
- Wady: asymetryczność, może być niestabilna numerycznie (log(0)), wrażliwa na outliery
Najlepsze praktyki (2026)
- Używanie stabilnych implementacji z clippingiem wartości
- Łączenie z Reverse KL Divergence w zależności od aplikacji
- Monitorowanie wartości KL podczas treningu VAE
- Wykorzystanie w regularizacji modeli (np. KL annealing)
Powiązane pojęcia
Kullback-Leibler DivergenceCross EntropyEntropyVariational Autoencoders (VAE)Evidence Lower Bound (ELBO)Jensen-Shannon DivergenceMutual InformationKnowledge Distillation→