Wprowadzenie
AlphaGo to program sztucznej inteligencji opracowany przez DeepMind (Google), który w 2016 roku dokonał historycznego przełomu – pokonał 18-krotnego mistrza świata w grze Go, Lee Sedola.
Dlaczego Go było tak trudne dla AI?
Gra w Go ma ok. 10170 możliwych pozycji – więcej niż atomów we wszechświecie. Tradycyjne metody „brute force” i drzewa decyzyjne były bezużyteczne. AlphaGo połączył uczenie głębokie z wyszukiwaniem Monte Carlo.
Wersje AlphaGo
- AlphaGo Fan (2015) – pierwsze zwycięstwa z profesjonalistami
- AlphaGo Lee (2016) – pokonanie Lee Sedola 4:1
- AlphaGo Master (2016-2017) – 60 wygranych z rzędu z najlepszymi graczami online
- AlphaGo Zero (2017) – nauczył się grać wyłącznie przez samogry (bez danych ludzkich) i pokonał wszystkie poprzednie wersje
- AlphaZero (2017) – uniwersalna wersja, która opanowała szachy, shogi i Go
Technologie użyte w AlphaGo
- Deep Neural Networks – Policy Network + Value Network
- Monte Carlo Tree Search (MCTS)
- Reinforcement Learning (samouczenie przez grę)
- Supervised Learning na milionach partii ludzkich (wczesne wersje)
Znaczenie historyczne
Zwycięstwo AlphaGo nad Lee Sedolem w marcu 2016 roku jest uważane za jeden z największych kamieni milowych w historii AI – porównywalny z Deep Blue pokonującym Kasparowa w szachach w 1997 roku. Pokazało światu potęgę uczenia głębokiego i reinforcement learning.
Dziedzictwo
AlphaGo zapoczątkował erę nowoczesnego AI. Techniki opracowane przy tym projekcie stały się podstawą dla późniejszych sukcesów DeepMind (AlphaFold, AlphaStar, Gato, Gemini) oraz wpłynęły na rozwój całego pola uczenia wzmocnienia.
Powiązane pojęcia
Reinforcement Learning • Monte Carlo Tree Search • AlphaZero • DeepMind • Lee Sedol • Game AI • Superhuman AI • AlphaFold • Artificial General Intelligence