老一代人工智能深藍,使用窮舉法戰勝國際象棋大師
AlphaGo,圍棋的可能性要遠遠超過國際象棋,因此挑戰圍棋的新一代人工智能的進化採用了這麼長的時間。它沒有使用窮舉法,而是使用了類似決策樹的算法,即機器學習。
馬爾可夫決策樹
策略與估值函數
監督學習利用已有經驗,促使機器快速學習,即有標準答案的學習
強化學習即使用結果來訓練機器,使用估值網絡來讓機器學習更好的策略