Latent Diffusion Models

Wprowadzenie

Latent Diffusion Models (LDM) to przełomowa architektura generatywna, która łączy modele dyfuzyjne z autoenkoderami (VAE). Zamiast wykonywać proces dyfuzji bezpośrednio na pikselach obrazu (co jest bardzo kosztowne), działa w skompresowanej przestrzeni latentnej.

Została wprowadzona w pracy „High-Resolution Image Synthesis with Latent Diffusion Models” (Rombach et al., 2022) i stała się podstawą Stable Diffusion.

Jak działają Latent Diffusion Models?

Architektura składa się z dwóch głównych komponentów:

  • Variational Autoencoder (VAE) – kompresuje obraz do mniejszej przestrzeni latentnej (np. 8× mniejsza)
  • Diffusion Model (U-Net) – wykonuje proces dodawania i usuwania szumu w przestrzeni latentnej

Podczas treningu model uczy się odszumiania w latent space. Podczas inferencji zaczyna od czystego szumu i stopniowo generuje obraz w przestrzeni latentnej, który na końcu jest dekodowany przez VAE do pełnego obrazu.

Zalety Latent Diffusion Models

  • Znacznie niższe zużycie pamięci i mocy obliczeniowej
  • Możliwość generowania obrazów w wysokiej rozdzielczości (512×512, 1024×1024+)
  • Szybsza inferencja w porównaniu do pixel-space diffusion
  • Łatwiejsze fine-tuning (DreamBooth, LoRA, ControlNet)
  • Dobra jakość przy mniejszych modelach

Porównanie z innymi modelami

  • vs Pixel-space Diffusion (DALL·E 1, early models) – LDM jest znacznie bardziej efektywna
  • vs GANs – stabilniejszy trening, lepsza jakość i różnorodność
  • vs Autoregresyjne modele (DALL·E 2, Parti) – LDM lepiej radzi sobie z globalną spójnością

Zastosowania (2026)

  • Stable Diffusion (wszystkie wersje)
  • Midjourney (od wersji V5+)
  • Flux.1 (Black Forest Labs)
  • Adobe Firefly
  • Generowanie wideo (Stable Video Diffusion)
  • 3D Generation, Image Editing, Inpainting, Outpainting

Najlepsze praktyki

  • Używaj LoRA lub DreamBooth do personalizacji
  • Łącz z ControlNet / IP-Adapter dla lepszej kontroli
  • Stosuj negative prompting
  • Używaj schedulerów jak Euler a, DPM++ 2M Karras
  • Przy fine-tuningu stosuj Low-Rank Adaptation (LoRA)

Powiązane pojęcia

Diffusion Models • Stable Diffusion • Variational Autoencoder (VAE) • Denoising Diffusion Probabilistic Models (DDPM) • ControlNet • LoRA • Text-to-Image Generation • Generative AI