Wprowadzenie
Variational Autoencoder (VAE) to generatywny model probabilistyczny wprowadzony w 2013 roku przez D. Kingmę i M. Wellinga. Łączy w sobie autoenkodery z wnioskowaniem bayesowskim, umożliwiając nie tylko kompresję danych, ale przede wszystkim generowanie nowych, realistycznych próbek.
Jak działa VAE?
VAE składa się z dwóch głównych części:
- Encoder – mapuje dane wejściowe na rozkład prawdopodobieństwa w przestrzeni latentnej (zazwyczaj Gaussowski)
- Decoder – generuje dane z próbek pobranych z przestrzeni latentnej
Trening odbywa się poprzez maksymalizację Evidence Lower Bound (ELBO), która składa się z dwóch części: rekonstrukcji i regularyzacji (KL Divergence).
Zalety VAE
- Ciągła przestrzeń latentna – pozwala na interpolację i generowanie nowych próbek
- Stabilniejszy trening niż GAN-y
- Możliwość kontroli nad generowanymi danymi
- Dobra interpretowalność przestrzeni ukrytej
Warianty VAE
- Beta-VAE – lepsza disentanglement cech
- Conditional VAE (CVAE) – generowanie warunkowe
- Vector Quantized VAE (VQ-VAE) – dyskretna przestrzeń latentna
- Hierarchical VAE – wielopoziomowa struktura latentna
Zastosowania
- Generowanie obrazów (np. faces, landscapes)
- Generowanie muzyki i dźwięku
- Modelowanie molekuł w chemii i farmacji
- Redukcja wymiarowości i usuwanie szumu
- Anomaly detection
Aktualny status (2026)
VAE pozostaje fundamentem generatywnego uczenia maszynowego. Chociaż w generowaniu obrazów dominują obecnie modele dyfuzyjne i autoregresywne, VAE jest nadal szeroko używany w zadaniach wymagających dobrze zorganizowanej przestrzeni latentnej, disentanglementu oraz w modelach hybrydowych.