1.預剪枝的目的:提升決策樹的泛化性能
2.預剪枝的做法:
將數據劃分爲訓練集和驗證集
在劃分每個節點之前進行評估,若當前節點的劃分不能提升泛化性能,則停止劃分,並將其標記爲葉節點;
若當前節點的劃分能夠提升泛化性能(從信息增益 or 其他方式 選擇最優屬性),則繼續劃分;
3.如何判斷泛化性能是否提升:
用留出法(機器學習-性能評估方法,2.2)劃分驗證集|訓練集 進行驗證:
當前節點不劃分:計算當前驗證集精度
當前節點劃分 :計算劃分後驗證集精度
若 劃分前>=劃分後,則選擇不劃分。
4.預剪枝的缺陷
預剪枝採用貪心的策略,禁止了某些策略的展開,探索的範圍變小了,帶來欠擬合的風險
5.預剪枝的優點
採用貪心的策略,減少訓練和測試時間的開銷,降低過擬合風險
參考書籍:機器學習 --- 周志華