Generative Adversarial Network (GAN)

Wprowadzenie

Generative Adversarial Network (GAN) to jedna z najbardziej wpływowych architektur w generatywnej AI. Została wprowadzona w 2014 roku przez Iana Goodfellowa i współpracowników. Pomysł opiera się na grze dwóch sieci neuronowych – Generatora i Discriminatora – które rywalizują ze sobą.

Jak działa GAN?

Dwie sieci trenują się jednocześnie w procesie gry o sumie zerowej:

  • Generator – tworzy fałszywe dane (np. obrazy), próbując oszukać Discriminatora
  • Discriminator – stara się odróżnić prawdziwe dane od tych wygenerowanych przez Generatora

Generator dąży do maksymalizacji błędu Discriminatora, a Discriminator do minimalizacji tego błędu. W efekcie Generator uczy się tworzyć coraz bardziej realistyczne dane.

Matematyczna idea

minG maxD V(D, G) = Ex~p_data[log D(x)] + Ez~p_z[log(1 − D(G(z)))]

Popularne warianty GAN

  • DCGAN – pierwsza stabilna wersja z warstwami konwolucyjnymi
  • StyleGAN / StyleGAN2 / StyleGAN3 – najwyższa jakość generowania twarzy i zdjęć
  • CycleGAN, Pix2Pix – tłumaczenie obrazów (image-to-image)
  • BigGAN, SAGAN – generowanie wysokiej rozdzielczości
  • WGAN, WGAN-GP – stabilniejsze treningi

Zalety GAN

  • Generowanie bardzo realistycznych danych
  • Nie wymaga etykietowanych danych (unsupervised)
  • Możliwość nauki rozkładu danych bez jawnego modelowania

Wady i wyzwania

  • Niesta bilny trening (mode collapse, vanishing gradients)
  • Trudne dostrojenie hiperparametrów
  • Wymaga dużej mocy obliczeniowej
  • Problemy etyczne (deepfakes)

Zastosowania

  • Generowanie realistycznych zdjęć i wideo
  • Deepfakes i edycja twarzy
  • Augmentacja danych w medycynie i nauce
  • Tworzenie sztuki i designu
  • Generowanie tekstur do gier
  • Synteza głosu i muzyki

Aktualny status (2026)

GAN-y w dużej mierze zostały wypchnięte przez modele dyfuzyjne (Diffusion Models) w generowaniu obrazów i wideo ze względu na większą stabilność i jakość. Jednak GAN-y nadal są używane tam, gdzie liczy się szybkość inferencji, kontrola nad generacją lub specyficzne zadania (np. super-resolution, domain adaptation). Nowoczesne hybrydy łączą GAN z Transformerami i Diffusion, tworząc jeszcze potężniejsze systemy generatywne.