加強機器學習模型性能——深刻理解隨機森林(RandomForest)和 Dropout的原理

要想了解如何加強機器學習模型性能,咱們須要知道如何下降模型的偏差。因此首先咱們必須明白模型偏差是由誤差(Bias)和方差(Variance)組成的。誤差是指樣本預測值的平均值樣本真實值的差,而方差是指樣本預測值偏離樣本預測值平均值的程度
其中
機器學習

  • 誤差(Bias)能夠描述模型的準確性
  • 而方差(Variance)能夠描述模型的穩定性,必定程度上反映了模型泛化能力

因此加強機器學習模型性能就意味着須要提升模型的準確性和穩定性。性能

咱們來看看下圖,直觀的感覺一下誤差(Bias)和方差(Variance)對模型的影響,你能夠將其想象一個同窗的一學期的考試狀況,越靠紅心表明考試得分越高:學習

  • 右下角同窗——學渣,每次考試分數不高,並且成績還不穩定,屬於高誤差高方差的模型。
  • 左下角同窗——學庸,成績很穩定,但是每次考試得分都不高,屬於方差較小但是誤差較大的模型。
  • 右上角的同窗——學聰,成績還不錯,但是忽高忽低,不穩定,屬於誤差較小但是方差較大的模型。
  • 左上角的同窗——學霸,成鍵很棒,並且極其穩定,屬於誤差較小,方差也小的模型。