Q-Learning

Wprowadzenie

Q-Learning to jeden z najbardziej fundamentalnych i klasycznych algorytmów uczenia ze wzmocnieniem (Reinforcement Learning). Został wprowadzony w 1989 roku przez Chrisa Watkinsa. Algorytm pozwala agentowi nauczyć się optymalnej strategii poprzez interakcję ze środowiskiem, bez posiadania modelu tego środowiska (model-free).

Podstawowa idea

Q-Learning estymuje funkcję Q(s, a) – wartość oczekiwanej nagrody za wykonanie akcji a w stanie s, a następnie postępowanie optymalnie.

Q(s, a) ← Q(s, a) + α [ r + γ · max(Q(s', a')) − Q(s, a) ]

Gdzie:

  • α – współczynnik uczenia (learning rate)
  • γ – współczynnik dyskontowania przyszłych nagród (discount factor)
  • r – natychmiastowa nagroda
  • s' – następny stan

Charakterystyka Q-Learning

  • Off-policy – uczy się optymalnej strategii niezależnie od strategii, którą aktualnie stosuje agent (exploration vs exploitation)
  • Temporal Difference (TD) – łączy uczenie Monte Carlo i Dynamic Programming
  • Tabular – klasyczna wersja używa tabeli Q (Q-table)

Deep Q-Network (DQN)

Klasyczny Q-Learning nie radzi sobie z dużymi lub ciągłymi przestrzeniami stanów. Rozwiązaniem jest Deep Q-Network (DeepMind, 2013/2015), który zastępuje tabelę Q siecią neuronową. To właśnie DQN pozwolił algorytmowi pokonać człowieka w grach Atari.

Zalety Q-Learning

  • Prosty w implementacji i teoretycznie gwarantuje zbieżność (przy odpowiednich warunkach)
  • Nie wymaga modelu środowiska
  • Możliwość uczenia się z doświadczeń z przeszłości (experience replay w DQN)
  • Podstawa wielu zaawansowanych algorytmów RL

Ograniczenia

  • Przekleństwo wymiarowości – Q-table rośnie wykładniczo z liczbą stanów i akcji
  • Wolna zbieżność w dużych przestrzeniach
  • Problemy z niestabilnością przy użyciu sieci neuronowych (rozwiązane m.in. przez Double DQN, Dueling DQN, Rainbow)
  • Słaba wydajność w ciągłych przestrzeniach akcji (tam lepiej sprawdzają się Actor-Critic / PPO / SAC)

Zastosowania

  • Gry komputerowe (Atari, Go, StarCraft)
  • Robotyka i sterowanie
  • Optymalizacja tras i logistyka
  • Finanse (trading, zarządzanie portfelem)
  • Systemy rekomendacyjne

Aktualny status (2026)

Q-Learning pozostaje podstawą edukacji w Reinforcement Learning i inspiracją dla wielu nowoczesnych algorytmów. Chociaż w praktyce w skomplikowanych zadaniach dominują metody Actor-Critic (PPO, SAC, TD3) oraz algorytmy oparte na transformerach (Decision Transformer, Offline RL), klasyczny Q-Learning i jego warianty (DQN, Rainbow) nadal są szeroko używane w badaniach i prostszych aplikacjach. Nowe podejścia łączą Q-Learning z dużymi modelami językowymi i światami symulowanymi.