Wasserstein GAN (WGAN)

Wprowadzenie

Wasserstein GAN (WGAN) to przełomowa architektura Generative Adversarial Networks wprowadzona w 2017 roku przez Martina Arjovsky’ego, Soumitha Chintalę i Léona Bottou. Rozwiązuje podstawowe problemy klasycznych GAN-ów, takie jak niestabilność treningu, vanishing gradients i mode collapse.

Główna zmiana – metryka Wassersteina

Zamiast używać divergence JS (Jensen-Shannon) lub KL, WGAN wykorzystuje Wasserstein Distance (nazywaną też Earth Mover’s Distance). Jest to metryka geometryczna, która mierzy, jak bardzo trzeba „przesunąć” masę prawdopodobieństwa, aby przekształcić jeden rozkład w drugi.

Kluczowe różnice w stosunku do Vanilla GAN

  • Discriminator → Critic: Zamiast klasyfikować „prawdziwe/fałszywe”, Critic ocenia jakość próbki (regresja)
  • Brak saturacji funkcji kosztu (problem vanishing gradient znika)
  • Lepsza korelacja między funkcją straty a jakością generowanych próbek
  • Znacznie stabilniejszy trening

Matematyczna podstawa

Wasserstein Distance (1-Wasserstein) definiowana jest jako:

W(Pr, Pg) = inf E[‖x−y‖]   (γ ∈ Π(Pr, Pg))

Dzięki twierdzeniu Kantorowicza-Rubinsteina można to przekształcić na problem maksymalizacji:

max E[f(x)] − E[f(x)]    (f ∈ Lip₁)

gdzie f jest 1-Lipschitz funkcją (Critic).

WGAN-GP (Gradient Penalty) – najpopularniejsza wersja

Oryginalny WGAN używał weight clipping, co powodowało problemy. WGAN-GP (2017) wprowadził Gradient Penalty:

λ ⋅ 𝔼 [(‖∇D(̂x)‖₂ - 1)²]

Gdzie ̂x jest interpolacją między próbkami rzeczywistymi i generowanymi.

Zalety WGAN / WGAN-GP

  • Bardzo stabilny trening
  • Znacznie zmniejszone ryzyko mode collapse
  • Lepsza jakość generowanych obrazów
  • Możliwość monitorowania postępu treningu za pomocą wartości loss Critica
  • Lepsza generalizacja

Wady

  • Wolniejszy trening niż nowsze architektury (StyleGAN, Diffusion Models)
  • Wymaga starannego dostrojenia hiperparametrów (zwłaszcza λ w GP)
  • Ciągle wymaga większej liczby aktualizacji Critica niż Generatora

Powiązane pojęcia

Generative Adversarial Networks • Earth Mover’s Distance • Gradient Penalty • Lipschitz Constraint • Mode Collapse • Spectral Normalization • StyleGAN • Diffusion Models