KL Divergence

Wprowadzenie

KL Divergence (Kullback-Leibler Divergence), zwana także divergencją Kullbacka-Leiblera, to miara asymetrycznej różnicy między dwoma rozkładami prawdopodobieństwa. Jest jednym z fundamentalnych pojęć teorii informacji i odgrywa kluczową rolę w nowoczesnym uczeniu maszynowym.

Definicja matematyczna

Dla dwóch rozkładów prawdopodobieństwa P i Q, KL Divergence definiujemy jako:

DKL(P ∥ Q) = Σ P(x) log(P(x) / Q(x))

Jest to miara asymetryczna – DKL(P ∥ Q) ≠ DKL(Q ∥ P).

Zastosowania KL Divergence

  • Variational Autoencoders (VAE) – minimalizacja KL Divergence w Evidence Lower Bound (ELBO)
  • Modele generatywne (GANs, Diffusion Models)
  • Reinforcement Learning (np. w optymalizacji polityki)
  • Knowledge Distillation (miara podobieństwa rozkładów wyjściowych)
  • Detekcja dryfu danych (concept drift)
  • Kompresja informacji i feature selection

Właściwości

  • KL Divergence ≥ 0 (zawsze nieujemna)
  • DKL(P ∥ Q) = 0 wtedy i tylko wtedy, gdy P = Q
  • Nie jest metryką (nie spełnia symetrii ani trójkąta nierówności)
  • Blisko związana z entropią krzyżową (Cross Entropy)

Zalety i wady

  • Zalety: intuicyjna interpretacja informacyjna, szeroko stosowana w uczeniu głębokim, skuteczna w optymalizacji rozkładów
  • Wady: asymetryczność, może być niestabilna numerycznie (log(0)), wrażliwa na outliery

Najlepsze praktyki (2026)

  • Używanie stabilnych implementacji z clippingiem wartości
  • Łączenie z Reverse KL Divergence w zależności od aplikacji
  • Monitorowanie wartości KL podczas treningu VAE
  • Wykorzystanie w regularizacji modeli (np. KL annealing)

Powiązane pojęcia

Kullback-Leibler DivergenceCross EntropyEntropyVariational Autoencoders (VAE)Evidence Lower Bound (ELBO)Jensen-Shannon DivergenceMutual InformationKnowledge Distillation