Q-Learning | Encyklopedia AI

Wprowadzenie

Q-Learning to jeden z najbardziej fundamentalnych i klasycznych algorytmów uczenia ze wzmocnieniem (Reinforcement Learning). Został wprowadzony w 1989 roku przez Chrisa Watkinsa. Algorytm pozwala agentowi nauczyć się optymalnej strategii poprzez interakcję ze środowiskiem, bez posiadania modelu tego środowiska (model-free).

Podstawowa idea

Q-Learning estymuje funkcję Q(s, a) – wartość oczekiwanej nagrody za wykonanie akcji a w stanie s, a następnie postępowanie optymalnie.

Q(s, a) ← Q(s, a) + α [ r + γ · max(Q(s', a')) − Q(s, a) ]

Gdzie:

α – współczynnik uczenia (learning rate)
γ – współczynnik dyskontowania przyszłych nagród (discount factor)
r – natychmiastowa nagroda
s' – następny stan

Charakterystyka Q-Learning

Off-policy – uczy się optymalnej strategii niezależnie od strategii, którą aktualnie stosuje agent (exploration vs exploitation)
Temporal Difference (TD) – łączy uczenie Monte Carlo i Dynamic Programming
Tabular – klasyczna wersja używa tabeli Q (Q-table)

Deep Q-Network (DQN)

Klasyczny Q-Learning nie radzi sobie z dużymi lub ciągłymi przestrzeniami stanów. Rozwiązaniem jest Deep Q-Network (DeepMind, 2013/2015), który zastępuje tabelę Q siecią neuronową. To właśnie DQN pozwolił algorytmowi pokonać człowieka w grach Atari.

Zalety Q-Learning

Prosty w implementacji i teoretycznie gwarantuje zbieżność (przy odpowiednich warunkach)
Nie wymaga modelu środowiska
Możliwość uczenia się z doświadczeń z przeszłości (experience replay w DQN)
Podstawa wielu zaawansowanych algorytmów RL

Ograniczenia

Przekleństwo wymiarowości – Q-table rośnie wykładniczo z liczbą stanów i akcji
Wolna zbieżność w dużych przestrzeniach
Problemy z niestabilnością przy użyciu sieci neuronowych (rozwiązane m.in. przez Double DQN, Dueling DQN, Rainbow)
Słaba wydajność w ciągłych przestrzeniach akcji (tam lepiej sprawdzają się Actor-Critic / PPO / SAC)

Zastosowania

Gry komputerowe (Atari, Go, StarCraft)
Robotyka i sterowanie
Optymalizacja tras i logistyka
Finanse (trading, zarządzanie portfelem)
Systemy rekomendacyjne

Aktualny status (2026)

Q-Learning pozostaje podstawą edukacji w Reinforcement Learning i inspiracją dla wielu nowoczesnych algorytmów. Chociaż w praktyce w skomplikowanych zadaniach dominują metody Actor-Critic (PPO, SAC, TD3) oraz algorytmy oparte na transformerach (Decision Transformer, Offline RL), klasyczny Q-Learning i jego warianty (DQN, Rainbow) nadal są szeroko używane w badaniach i prostszych aplikacjach. Nowe podejścia łączą Q-Learning z dużymi modelami językowymi i światami symulowanymi.