Diffusion Models (Modele Dyfuzyjne)

Wprowadzenie

Diffusion Models to obecnie jedna z najpotężniejszych klas modeli generatywnych. Zrewolucjonizowały generowanie obrazów, wideo, audio i nawet molekuł. Modele takie jak Stable Diffusion, DALL·E 3, Midjourney czy Sora opierają się właśnie na tej technologii.

Jak działają modele dyfuzyjne?

Idea jest inspirowana procesem fizycznym dyfuzji (rozprzestrzeniania się cząsteczek). Model uczy się w dwóch etapach:

  • Forward process (dodawanie szumu) – stopniowo dodaje losowy szum gaussowski do obrazu, aż stanie się czystym szumem
  • Reverse process (usuwanie szumu) – uczy się odwracać ten proces i rekonstruować czysty obraz z szumu

Główne rodzaje modeli dyfuzyjnych

  • DDPM (Denoising Diffusion Probabilistic Models) – klasyczna wersja
  • Score-based Generative Models
  • Latent Diffusion Models (LDM) – najpopularniejsze (używane w Stable Diffusion)
  • Consistency Models – szybsza generacja
  • Flow Matching / Rectified Flow – najnowsze, bardzo szybkie podejścia

Zalety modeli dyfuzyjnych

  • Znacznie lepsza jakość niż GAN-y
  • Stabilniejsze trenowanie
  • Możliwość precyzyjnego sterowania generacją (text-to-image, image-to-image, inpainting)
  • Łatwość fine-tuningu (LoRA, DreamBooth)

Zastosowania

  • Generowanie zdjęć i sztuki (Stable Diffusion, Midjourney)
  • Generowanie wideo (Sora, Runway Gen-3, Kling)
  • Projektowanie molekuł i leków
  • Synth audio i muzyka
  • Edycja zdjęć i video (inpainting, outpainting)
  • Tworzenie danych syntetycznych do treningu innych modeli

Powiązane pojęcia

DenoisingLatent SpaceStable DiffusionGANVAEsScore MatchingText-to-ImageLoRAControlNetFluxImagen