Wprowadzenie
World Models to podejście w Reinforcement Learning, w którym agent nie uczy się wyłącznie na podstawie interakcji z rzeczywistym środowiskiem, lecz buduje wewnętrzny, uczalny model świata (world model). Dzięki temu może planować przyszłe akcje i uczyć się w wygenerowanej symulacji, co drastycznie zwiększa efektywność uczenia.
Historia i kluczowa praca
Koncepcja została spopularyzowana w 2018 roku przez David Ha i Jürgen Schmidhuber w pracy „World Models”. Od tego czasu stała się fundamentem nowoczesnych algorytmów Model-Based Reinforcement Learning.
Architektura World Models
- VAE (Variational Autoencoder) – kompresuje obserwacje ze środowiska do latent space
- Memory / RNN (np. LSTM, GRU, Transformer) – przewiduje kolejne stany latentne
- Controller (Agent) – podejmuje decyzje na podstawie wyuczonego modelu świata
Główne zalety World Models
- Znacznie wyższa sample efficiency (mniej interakcji ze środowiskiem)
- Możliwość uczenia w symulacji („dreaming”)
- Lepsza generalizacja i zdolność do planowania długoterminowego
- Skuteczność w środowiskach z rzadkimi nagrodami
Znane implementacje i następcy
- DreamerV1, DreamerV2, DreamerV3 (Google DeepMind) – aktualnie jedne z najmocniejszych algorytmów Model-Based RL
- PlaNet
- MuZero (DeepMind)
- DayDreamer
- Transformer-Based World Models
Zastosowania
- Robotyka i sterowanie
- Gry komputerowe (Atari, Minecraft, MuJoCo)
- Autonomiczne pojazdy
- Symulacje fizyczne i naukowe
- Planowanie strategiczne w złożonych środowiskach
Powiązane pojęcia
Model-Based RL • Dreamer • MuZero • PlaNet • Model Predictive Control (MPC) • Latent Space • Imagination-Augmented Agents • Sample Efficiency