Wprowadzenie
KL Divergence (Kullback-Leibler Divergence), zwana także divergencją Kullbacka-Leiblera, to miara tego, jak jeden rozkład prawdopodobieństwa różni się od drugiego. Jest jednym z fundamentalnych narzędzi teorii informacji i odgrywa kluczową rolę w uczeniu maszynowym, szczególnie w modelach generatywnych.
Matematyczna definicja
DKL(P ‖ Q) = ∑x P(x) log(P(x) / Q(x))
lub w wersji ciągłej:
DKL(P ‖ Q) = ∫ P(x) log(P(x) / Q(x)) dx
Wartość jest zawsze nieujemna i równa zeru tylko wtedy, gdy rozkłady P i Q są identyczne.
Ważne właściwości
- Asymetryczna – DKL(P ‖ Q) ≠ DKL(Q ‖ P)
- Nie jest metryką – nie spełnia symetrii ani trójkąta nierówności
- Interpretacja – ile dodatkowych bitów informacji potrzeba, aby zakodować próbki z P używając kodowania optymalnego dla Q
Zastosowania w AI
- Variational Autoencoders (VAE) – minimalizacja KL Divergence między rozkładem posterior a prior (regularizacja latent space)
- Knowledge Distillation – uczenie małego modelu na podstawie miękkich etykiet dużego modelu
- Reinforcement Learning – w algorytmach policy gradient (np. TRPO, PPO)
- Modele generatywne – GAN-y, Diffusion Models, Normalizing Flows
- Bayesian Inference – przybliżanie rozkładów posterior
KL Divergence a Cross-Entropy
Cross-Entropy = H(P, Q) = H(P) + DKL(P ‖ Q)
Dlatego minimalizacja cross-entropy przy stałym H(P) jest równoważna minimalizacji KL Divergence.
Zalety i ograniczenia
- Zalety: matematycznie elegancka, ma solidne podstawy teoretyczne, bardzo użyteczna w optymalizacji
- Ograniczenia: może być niestabilna numerycznie (log(0)), nie jest symetryczna, wrażliwa na rozkłady z zerowymi prawdopodobieństwami
Aktualny status (2026)
KL Divergence pozostaje jedną z najważniejszych miar w nowoczesnym deep learningu. Jest kluczowym elementem treningu VAE, Diffusion Models, RLHF oraz wielu technik regularizacji. Nowsze metody (np. JS Divergence, Wasserstein Distance, Forward KL vs Reverse KL) są często używane jako alternatywy lub uzupełnienia KL Divergence w zależności od konkretnego problemu.
Zrozumienie KL Divergence jest niezbędne do głębokiego zrozumienia tego, jak działają współczesne generatywne modele AI.