7.阿爾法狗與強化學習算法

時間 2021-06-12 標籤人工智能、大數據與複雜系統（筆記）

7.1 人工智能的發展

老一代人工智能深藍，使用窮舉法戰勝國際象棋大師
AlphaGo，圍棋的可能性要遠遠超過國際象棋，因此挑戰圍棋的新一代人工智能的進化採用了這麼長的時間。它沒有使用窮舉法，而是使用了類似決策樹的算法，即機器學習。

機器學習區別於窮舉法的地方是，它僅取出若干可能性，再去計算新的可能

7.2～7.4 強化學習算法

馬爾可夫決策樹
策略與估值函數
監督學習利用已有經驗，促使機器快速學習，即有標準答案的學習
強化學習即使用結果來訓練機器，使用估值網絡來讓機器學習更好的策略

7.5 AlphaGo的啓示

人工智能潛力是無限的，阿爾法狗的案例可以運用到各個領域
人工智能的發揮作用是有條件的
我們的生存策略：
1）用人工智能提高自己的效率
2）數據思維
3）專業知識依然是第一生產力

7.6 無監督學習