Wasserstein GAN (WGAN) | Szczegółowe Omówienie i Matematyka

Wprowadzenie

Wasserstein GAN (WGAN) to przełomowa architektura Generative Adversarial Networks wprowadzona w 2017 roku przez Martina Arjovsky’ego, Soumitha Chintalę i Léona Bottou. Rozwiązuje podstawowe problemy klasycznych GAN-ów, takie jak niestabilność treningu, vanishing gradients i mode collapse.

Główna zmiana – metryka Wassersteina

Zamiast używać divergence JS (Jensen-Shannon) lub KL, WGAN wykorzystuje Wasserstein Distance (nazywaną też Earth Mover’s Distance). Jest to metryka geometryczna, która mierzy, jak bardzo trzeba „przesunąć” masę prawdopodobieństwa, aby przekształcić jeden rozkład w drugi.

Kluczowe różnice w stosunku do Vanilla GAN

Discriminator → Critic: Zamiast klasyfikować „prawdziwe/fałszywe”, Critic ocenia jakość próbki (regresja)
Brak saturacji funkcji kosztu (problem vanishing gradient znika)
Lepsza korelacja między funkcją straty a jakością generowanych próbek
Znacznie stabilniejszy trening

Matematyczna podstawa

Wasserstein Distance (1-Wasserstein) definiowana jest jako:

W(Pr, Pg) = inf E[‖x−y‖]   (γ ∈ Π(Pr, Pg))

Dzięki twierdzeniu Kantorowicza-Rubinsteina można to przekształcić na problem maksymalizacji:

max E[f(x)] − E[f(x)]    (f ∈ Lip₁)

gdzie f jest 1-Lipschitz funkcją (Critic).

WGAN-GP (Gradient Penalty) – najpopularniejsza wersja

Oryginalny WGAN używał weight clipping, co powodowało problemy. WGAN-GP (2017) wprowadził Gradient Penalty:

λ ⋅ 𝔼 [(‖∇D(̂x)‖₂ - 1)²]

Gdzie ̂x jest interpolacją między próbkami rzeczywistymi i generowanymi.

Zalety WGAN / WGAN-GP

Bardzo stabilny trening
Znacznie zmniejszone ryzyko mode collapse
Lepsza jakość generowanych obrazów
Możliwość monitorowania postępu treningu za pomocą wartości loss Critica
Lepsza generalizacja

Wady

Wolniejszy trening niż nowsze architektury (StyleGAN, Diffusion Models)
Wymaga starannego dostrojenia hiperparametrów (zwłaszcza λ w GP)
Ciągle wymaga większej liczby aktualizacji Critica niż Generatora

Powiązane pojęcia

Deep Wasserstein GAN→Wasserstein Distance→Generative Adversarial Networks→Jensen Shannon Divergence→GAN→Generative Adversarial Network→Vanishing Gradient→Earth Movers Distance→Gradient Penalty→Cartoon GAN→