Wprowadzenie
Diffusion Models to obecnie jedna z najpotężniejszych klas modeli generatywnych. Zrewolucjonizowały generowanie obrazów, wideo, audio i nawet molekuł. Modele takie jak Stable Diffusion, DALL·E 3, Midjourney czy Sora opierają się właśnie na tej technologii.
Jak działają modele dyfuzyjne?
Idea jest inspirowana procesem fizycznym dyfuzji (rozprzestrzeniania się cząsteczek). Model uczy się w dwóch etapach:
- Forward process (dodawanie szumu) – stopniowo dodaje losowy szum gaussowski do obrazu, aż stanie się czystym szumem
- Reverse process (usuwanie szumu) – uczy się odwracać ten proces i rekonstruować czysty obraz z szumu
Główne rodzaje modeli dyfuzyjnych
- DDPM (Denoising Diffusion Probabilistic Models) – klasyczna wersja
- Score-based Generative Models
- Latent Diffusion Models (LDM) – najpopularniejsze (używane w Stable Diffusion)
- Consistency Models – szybsza generacja
- Flow Matching / Rectified Flow – najnowsze, bardzo szybkie podejścia
Zalety modeli dyfuzyjnych
- Znacznie lepsza jakość niż GAN-y
- Stabilniejsze trenowanie
- Możliwość precyzyjnego sterowania generacją (text-to-image, image-to-image, inpainting)
- Łatwość fine-tuningu (LoRA, DreamBooth)
Zastosowania
- Generowanie zdjęć i sztuki (Stable Diffusion, Midjourney)
- Generowanie wideo (Sora, Runway Gen-3, Kling)
- Projektowanie molekuł i leków
- Synth audio i muzyka
- Edycja zdjęć i video (inpainting, outpainting)
- Tworzenie danych syntetycznych do treningu innych modeli