World Models

Wprowadzenie

World Models to podejście w Reinforcement Learning, w którym agent nie uczy się wyłącznie na podstawie interakcji z rzeczywistym środowiskiem, lecz buduje wewnętrzny, uczalny model świata (world model). Dzięki temu może planować przyszłe akcje i uczyć się w wygenerowanej symulacji, co drastycznie zwiększa efektywność uczenia.

Historia i kluczowa praca

Koncepcja została spopularyzowana w 2018 roku przez David Ha i Jürgen Schmidhuber w pracy „World Models”. Od tego czasu stała się fundamentem nowoczesnych algorytmów Model-Based Reinforcement Learning.

Architektura World Models

  • VAE (Variational Autoencoder) – kompresuje obserwacje ze środowiska do latent space
  • Memory / RNN (np. LSTM, GRU, Transformer) – przewiduje kolejne stany latentne
  • Controller (Agent) – podejmuje decyzje na podstawie wyuczonego modelu świata

Główne zalety World Models

  • Znacznie wyższa sample efficiency (mniej interakcji ze środowiskiem)
  • Możliwość uczenia w symulacji („dreaming”)
  • Lepsza generalizacja i zdolność do planowania długoterminowego
  • Skuteczność w środowiskach z rzadkimi nagrodami

Znane implementacje i następcy

  • DreamerV1, DreamerV2, DreamerV3 (Google DeepMind) – aktualnie jedne z najmocniejszych algorytmów Model-Based RL
  • PlaNet
  • MuZero (DeepMind)
  • DayDreamer
  • Transformer-Based World Models

Zastosowania

  • Robotyka i sterowanie
  • Gry komputerowe (Atari, Minecraft, MuJoCo)
  • Autonomiczne pojazdy
  • Symulacje fizyczne i naukowe
  • Planowanie strategiczne w złożonych środowiskach

Powiązane pojęcia

Model-Based RL • Dreamer • MuZero • PlaNet • Model Predictive Control (MPC) • Latent Space • Imagination-Augmented Agents • Sample Efficiency