決策樹預剪枝(3)

1.預剪枝的目的:提升決策樹的泛化性能

 

2.預剪枝的做法:

將數據劃分爲訓練集和驗證集

在劃分每個節點之前進行評估,若當前節點的劃分不能提升泛化性能,則停止劃分,並將其標記爲葉節點;

                   若當前節點的劃分能夠提升泛化性能(從信息增益 or 其他方式 選擇最優屬性),則繼續劃分;

 

3.如何判斷泛化性能是否提升:

用留出法(機器學習-性能評估方法,2.2)劃分驗證集|訓練集 進行驗證:

當前節點不劃分:計算當前驗證集精度

當前節點劃分   :計算劃分後驗證集精度

若 劃分前>=劃分後,則選擇不劃分。

       

           

 

 

 

4.預剪枝的缺陷

預剪枝採用貪心的策略,禁止了某些策略的展開,探索的範圍變小了,帶來欠擬合的風險

5.預剪枝的優點

採用貪心的策略,減少訓練和測試時間的開銷,降低過擬合風險

 

參考書籍:機器學習 --- 周志華