AlphaGo

Wprowadzenie

AlphaGo to program sztucznej inteligencji opracowany przez DeepMind (Google), który w 2016 roku dokonał historycznego przełomu – pokonał 18-krotnego mistrza świata w grze Go, Lee Sedola.

Dlaczego Go było tak trudne dla AI?

Gra w Go ma ok. 10¹⁷⁰ możliwych pozycji – więcej niż atomów we wszechświecie. Tradycyjne metody „brute force” i drzewa decyzyjne były bezużyteczne. AlphaGo połączył uczenie głębokie z wyszukiwaniem Monte Carlo.

Wersje AlphaGo

AlphaGo Fan (2015) – pierwsze zwycięstwa z profesjonalistami
AlphaGo Lee (2016) – pokonanie Lee Sedola 4:1
AlphaGo Master (2016-2017) – 60 wygranych z rzędu z najlepszymi graczami online
AlphaGo Zero (2017) – nauczył się grać wyłącznie przez samogry (bez danych ludzkich) i pokonał wszystkie poprzednie wersje
AlphaZero (2017) – uniwersalna wersja, która opanowała szachy, shogi i Go

Technologie użyte w AlphaGo

Deep Neural Networks – Policy Network + Value Network
Monte Carlo Tree Search (MCTS)
Reinforcement Learning (samouczenie przez grę)
Supervised Learning na milionach partii ludzkich (wczesne wersje)

Znaczenie historyczne

Zwycięstwo AlphaGo nad Lee Sedolem w marcu 2016 roku jest uważane za jeden z największych kamieni milowych w historii AI – porównywalny z Deep Blue pokonującym Kasparowa w szachach w 1997 roku. Pokazało światu potęgę uczenia głębokiego i reinforcement learning.

Dziedzictwo

AlphaGo zapoczątkował erę nowoczesnego AI. Techniki opracowane przy tym projekcie stały się podstawą dla późniejszych sukcesów DeepMind (AlphaFold, AlphaStar, Gato, Gemini) oraz wpłynęły na rozwój całego pola uczenia wzmocnienia.

Powiązane pojęcia