Wprowadzenie
Wasserstein GAN (WGAN) to przełomowa architektura Generative Adversarial Networks wprowadzona w 2017 roku przez Martina Arjovsky’ego, Soumitha Chintalę i Léona Bottou. Rozwiązuje podstawowe problemy klasycznych GAN-ów, takie jak niestabilność treningu, vanishing gradients i mode collapse.
Główna zmiana – metryka Wassersteina
Zamiast używać divergence JS (Jensen-Shannon) lub KL, WGAN wykorzystuje Wasserstein Distance (nazywaną też Earth Mover’s Distance). Jest to metryka geometryczna, która mierzy, jak bardzo trzeba „przesunąć” masę prawdopodobieństwa, aby przekształcić jeden rozkład w drugi.
Kluczowe różnice w stosunku do Vanilla GAN
- Discriminator → Critic: Zamiast klasyfikować „prawdziwe/fałszywe”, Critic ocenia jakość próbki (regresja)
- Brak saturacji funkcji kosztu (problem vanishing gradient znika)
- Lepsza korelacja między funkcją straty a jakością generowanych próbek
- Znacznie stabilniejszy trening
Matematyczna podstawa
Wasserstein Distance (1-Wasserstein) definiowana jest jako:
W(Pr, Pg) = inf E[‖x−y‖] (γ ∈ Π(Pr, Pg))Dzięki twierdzeniu Kantorowicza-Rubinsteina można to przekształcić na problem maksymalizacji:
max E[f(x)] − E[f(x)] (f ∈ Lip₁)gdzie f jest 1-Lipschitz funkcją (Critic).
WGAN-GP (Gradient Penalty) – najpopularniejsza wersja
Oryginalny WGAN używał weight clipping, co powodowało problemy. WGAN-GP (2017) wprowadził Gradient Penalty:
λ ⋅ 𝔼 [(‖∇D(̂x)‖₂ - 1)²]
Gdzie ̂x jest interpolacją między próbkami rzeczywistymi i generowanymi.
Zalety WGAN / WGAN-GP
- Bardzo stabilny trening
- Znacznie zmniejszone ryzyko mode collapse
- Lepsza jakość generowanych obrazów
- Możliwość monitorowania postępu treningu za pomocą wartości loss Critica
- Lepsza generalizacja
Wady
- Wolniejszy trening niż nowsze architektury (StyleGAN, Diffusion Models)
- Wymaga starannego dostrojenia hiperparametrów (zwłaszcza λ w GP)
- Ciągle wymaga większej liczby aktualizacji Critica niż Generatora
Powiązane pojęcia
Generative Adversarial Networks • Earth Mover’s Distance • Gradient Penalty • Lipschitz Constraint • Mode Collapse • Spectral Normalization • StyleGAN • Diffusion Models