Variational Autoencoder (VAE)

Wprowadzenie

Variational Autoencoder (VAE) to generatywny model probabilistyczny wprowadzony w 2013 roku przez D. Kingmę i M. Wellinga. Łączy w sobie autoenkodery z wnioskowaniem bayesowskim, umożliwiając nie tylko kompresję danych, ale przede wszystkim generowanie nowych, realistycznych próbek.

Jak działa VAE?

VAE składa się z dwóch głównych części:

  • Encoder – mapuje dane wejściowe na rozkład prawdopodobieństwa w przestrzeni latentnej (zazwyczaj Gaussowski)
  • Decoder – generuje dane z próbek pobranych z przestrzeni latentnej

Trening odbywa się poprzez maksymalizację Evidence Lower Bound (ELBO), która składa się z dwóch części: rekonstrukcji i regularyzacji (KL Divergence).

Zalety VAE

  • Ciągła przestrzeń latentna – pozwala na interpolację i generowanie nowych próbek
  • Stabilniejszy trening niż GAN-y
  • Możliwość kontroli nad generowanymi danymi
  • Dobra interpretowalność przestrzeni ukrytej

Warianty VAE

  • Beta-VAE – lepsza disentanglement cech
  • Conditional VAE (CVAE) – generowanie warunkowe
  • Vector Quantized VAE (VQ-VAE) – dyskretna przestrzeń latentna
  • Hierarchical VAE – wielopoziomowa struktura latentna

Zastosowania

  • Generowanie obrazów (np. faces, landscapes)
  • Generowanie muzyki i dźwięku
  • Modelowanie molekuł w chemii i farmacji
  • Redukcja wymiarowości i usuwanie szumu
  • Anomaly detection

Aktualny status (2026)

VAE pozostaje fundamentem generatywnego uczenia maszynowego. Chociaż w generowaniu obrazów dominują obecnie modele dyfuzyjne i autoregresywne, VAE jest nadal szeroko używany w zadaniach wymagających dobrze zorganizowanej przestrzeni latentnej, disentanglementu oraz w modelach hybrydowych.