Wprowadzenie
Latent Diffusion Models (LDM) to przełomowa architektura generatywna, która łączy modele dyfuzyjne z autoenkoderami (VAE). Zamiast wykonywać proces dyfuzji bezpośrednio na pikselach obrazu (co jest bardzo kosztowne), działa w skompresowanej przestrzeni latentnej.
Została wprowadzona w pracy „High-Resolution Image Synthesis with Latent Diffusion Models” (Rombach et al., 2022) i stała się podstawą Stable Diffusion.
Jak działają Latent Diffusion Models?
Architektura składa się z dwóch głównych komponentów:
- Variational Autoencoder (VAE) – kompresuje obraz do mniejszej przestrzeni latentnej (np. 8× mniejsza)
- Diffusion Model (U-Net) – wykonuje proces dodawania i usuwania szumu w przestrzeni latentnej
Podczas treningu model uczy się odszumiania w latent space. Podczas inferencji zaczyna od czystego szumu i stopniowo generuje obraz w przestrzeni latentnej, który na końcu jest dekodowany przez VAE do pełnego obrazu.
Zalety Latent Diffusion Models
- Znacznie niższe zużycie pamięci i mocy obliczeniowej
- Możliwość generowania obrazów w wysokiej rozdzielczości (512×512, 1024×1024+)
- Szybsza inferencja w porównaniu do pixel-space diffusion
- Łatwiejsze fine-tuning (DreamBooth, LoRA, ControlNet)
- Dobra jakość przy mniejszych modelach
Porównanie z innymi modelami
- vs Pixel-space Diffusion (DALL·E 1, early models) – LDM jest znacznie bardziej efektywna
- vs GANs – stabilniejszy trening, lepsza jakość i różnorodność
- vs Autoregresyjne modele (DALL·E 2, Parti) – LDM lepiej radzi sobie z globalną spójnością
Zastosowania (2026)
- Stable Diffusion (wszystkie wersje)
- Midjourney (od wersji V5+)
- Flux.1 (Black Forest Labs)
- Adobe Firefly
- Generowanie wideo (Stable Video Diffusion)
- 3D Generation, Image Editing, Inpainting, Outpainting
Najlepsze praktyki
- Używaj LoRA lub DreamBooth do personalizacji
- Łącz z ControlNet / IP-Adapter dla lepszej kontroli
- Stosuj negative prompting
- Używaj schedulerów jak Euler a, DPM++ 2M Karras
- Przy fine-tuningu stosuj Low-Rank Adaptation (LoRA)
Powiązane pojęcia
Diffusion Models • Stable Diffusion • Variational Autoencoder (VAE) • Denoising Diffusion Probabilistic Models (DDPM) • ControlNet • LoRA • Text-to-Image Generation • Generative AI