7.阿爾法狗與強化學習算法

7.1 人工智能的發展

  • 老一代人工智能深藍,使用窮舉法戰勝國際象棋大師
    在這裏插入圖片描述

  • AlphaGo,圍棋的可能性要遠遠超過國際象棋,因此挑戰圍棋的新一代人工智能的進化採用了這麼長的時間。它沒有使用窮舉法,而是使用了類似決策樹的算法,即機器學習。

在這裏插入圖片描述

  • 機器學習區別於窮舉法的地方是,它僅取出若干可能性,再去計算新的可能

7.2~7.4 強化學習算法

在這裏插入圖片描述

  • 馬爾可夫決策樹
    在這裏插入圖片描述

  • 策略與估值函數
    在這裏插入圖片描述
    在這裏插入圖片描述

  • 監督學習利用已有經驗,促使機器快速學習,即有標準答案的學習
    在這裏插入圖片描述

  • 強化學習即使用結果來訓練機器,使用估值網絡來讓機器學習更好的策略

7.5 AlphaGo的啓示

  • 人工智能潛力是無限的,阿爾法狗的案例可以運用到各個領域
  • 人工智能的發揮作用是有條件的
  • 我們的生存策略:
    1) 用人工智能提高自己的效率
    2) 數據思維
    3) 專業知識依然是第一生產力

7.6 無監督學習