Wprowadzenie
Q-Learning to jeden z najbardziej fundamentalnych i klasycznych algorytmów uczenia ze wzmocnieniem (Reinforcement Learning). Został wprowadzony w 1989 roku przez Chrisa Watkinsa. Algorytm pozwala agentowi nauczyć się optymalnej strategii poprzez interakcję ze środowiskiem, bez posiadania modelu tego środowiska (model-free).
Podstawowa idea
Q-Learning estymuje funkcję Q(s, a) – wartość oczekiwanej nagrody za wykonanie akcji a w stanie s, a następnie postępowanie optymalnie.
Q(s, a) ← Q(s, a) + α [ r + γ · max(Q(s', a')) − Q(s, a) ]
Gdzie:
- α – współczynnik uczenia (learning rate)
- γ – współczynnik dyskontowania przyszłych nagród (discount factor)
- r – natychmiastowa nagroda
- s' – następny stan
Charakterystyka Q-Learning
- Off-policy – uczy się optymalnej strategii niezależnie od strategii, którą aktualnie stosuje agent (exploration vs exploitation)
- Temporal Difference (TD) – łączy uczenie Monte Carlo i Dynamic Programming
- Tabular – klasyczna wersja używa tabeli Q (Q-table)
Deep Q-Network (DQN)
Klasyczny Q-Learning nie radzi sobie z dużymi lub ciągłymi przestrzeniami stanów. Rozwiązaniem jest Deep Q-Network (DeepMind, 2013/2015), który zastępuje tabelę Q siecią neuronową. To właśnie DQN pozwolił algorytmowi pokonać człowieka w grach Atari.
Zalety Q-Learning
- Prosty w implementacji i teoretycznie gwarantuje zbieżność (przy odpowiednich warunkach)
- Nie wymaga modelu środowiska
- Możliwość uczenia się z doświadczeń z przeszłości (experience replay w DQN)
- Podstawa wielu zaawansowanych algorytmów RL
Ograniczenia
- Przekleństwo wymiarowości – Q-table rośnie wykładniczo z liczbą stanów i akcji
- Wolna zbieżność w dużych przestrzeniach
- Problemy z niestabilnością przy użyciu sieci neuronowych (rozwiązane m.in. przez Double DQN, Dueling DQN, Rainbow)
- Słaba wydajność w ciągłych przestrzeniach akcji (tam lepiej sprawdzają się Actor-Critic / PPO / SAC)
Zastosowania
- Gry komputerowe (Atari, Go, StarCraft)
- Robotyka i sterowanie
- Optymalizacja tras i logistyka
- Finanse (trading, zarządzanie portfelem)
- Systemy rekomendacyjne
Aktualny status (2026)
Q-Learning pozostaje podstawą edukacji w Reinforcement Learning i inspiracją dla wielu nowoczesnych algorytmów. Chociaż w praktyce w skomplikowanych zadaniach dominują metody Actor-Critic (PPO, SAC, TD3) oraz algorytmy oparte na transformerach (Decision Transformer, Offline RL), klasyczny Q-Learning i jego warianty (DQN, Rainbow) nadal są szeroko używane w badaniach i prostszych aplikacjach. Nowe podejścia łączą Q-Learning z dużymi modelami językowymi i światami symulowanymi.