Variational Autoencoder (VAE)

Wprowadzenie

Variational Autoencoder (VAE) to generatywny model probabilistyczny wprowadzony w 2013 roku przez D. Kingmę i M. Wellinga. Łączy w sobie autoenkodery z wnioskowaniem bayesowskim, umożliwiając nie tylko kompresję danych, ale przede wszystkim generowanie nowych, realistycznych próbek.

Jak działa VAE?

VAE składa się z dwóch głównych części:

Encoder – mapuje dane wejściowe na rozkład prawdopodobieństwa w przestrzeni latentnej (zazwyczaj Gaussowski)
Decoder – generuje dane z próbek pobranych z przestrzeni latentnej

Trening odbywa się poprzez maksymalizację Evidence Lower Bound (ELBO), która składa się z dwóch części: rekonstrukcji i regularyzacji (KL Divergence).

Zalety VAE

Ciągła przestrzeń latentna – pozwala na interpolację i generowanie nowych próbek
Stabilniejszy trening niż GAN-y
Możliwość kontroli nad generowanymi danymi
Dobra interpretowalność przestrzeni ukrytej

Warianty VAE

Beta-VAE – lepsza disentanglement cech
Conditional VAE (CVAE) – generowanie warunkowe
Vector Quantized VAE (VQ-VAE) – dyskretna przestrzeń latentna
Hierarchical VAE – wielopoziomowa struktura latentna

Zastosowania

Generowanie obrazów (np. faces, landscapes)
Generowanie muzyki i dźwięku
Modelowanie molekuł w chemii i farmacji
Redukcja wymiarowości i usuwanie szumu
Anomaly detection

Aktualny status (2026)

VAE pozostaje fundamentem generatywnego uczenia maszynowego. Chociaż w generowaniu obrazów dominują obecnie modele dyfuzyjne i autoregresywne, VAE jest nadal szeroko używany w zadaniach wymagających dobrze zorganizowanej przestrzeni latentnej, disentanglementu oraz w modelach hybrydowych.