KL Divergence | Encyklopedia AI

Wprowadzenie

KL Divergence (Kullback-Leibler Divergence), zwana także divergencją Kullbacka-Leiblera, to miara tego, jak jeden rozkład prawdopodobieństwa różni się od drugiego. Jest jednym z fundamentalnych narzędzi teorii informacji i odgrywa kluczową rolę w uczeniu maszynowym, szczególnie w modelach generatywnych.

Matematyczna definicja

D_KL(P ‖ Q) = ∑_x P(x) log(P(x) / Q(x))
lub w wersji ciągłej:
D_KL(P ‖ Q) = ∫ P(x) log(P(x) / Q(x)) dx

Wartość jest zawsze nieujemna i równa zeru tylko wtedy, gdy rozkłady P i Q są identyczne.

Ważne właściwości

Asymetryczna – D_KL(P ‖ Q) ≠ D_KL(Q ‖ P)
Nie jest metryką – nie spełnia symetrii ani trójkąta nierówności
Interpretacja – ile dodatkowych bitów informacji potrzeba, aby zakodować próbki z P używając kodowania optymalnego dla Q

Zastosowania w AI

Variational Autoencoders (VAE) – minimalizacja KL Divergence między rozkładem posterior a prior (regularizacja latent space)
Knowledge Distillation – uczenie małego modelu na podstawie miękkich etykiet dużego modelu
Reinforcement Learning – w algorytmach policy gradient (np. TRPO, PPO)
Modele generatywne – GAN-y, Diffusion Models, Normalizing Flows
Bayesian Inference – przybliżanie rozkładów posterior

KL Divergence a Cross-Entropy

Cross-Entropy = H(P, Q) = H(P) + D_KL(P ‖ Q)
Dlatego minimalizacja cross-entropy przy stałym H(P) jest równoważna minimalizacji KL Divergence.

Zalety i ograniczenia

Zalety: matematycznie elegancka, ma solidne podstawy teoretyczne, bardzo użyteczna w optymalizacji
Ograniczenia: może być niestabilna numerycznie (log(0)), nie jest symetryczna, wrażliwa na rozkłady z zerowymi prawdopodobieństwami

Aktualny status (2026)

KL Divergence pozostaje jedną z najważniejszych miar w nowoczesnym deep learningu. Jest kluczowym elementem treningu VAE, Diffusion Models, RLHF oraz wielu technik regularizacji. Nowsze metody (np. JS Divergence, Wasserstein Distance, Forward KL vs Reverse KL) są często używane jako alternatywy lub uzupełnienia KL Divergence w zależności od konkretnego problemu.

Zrozumienie KL Divergence jest niezbędne do głębokiego zrozumienia tego, jak działają współczesne generatywne modele AI.