天池金融風控-貸款違約挑戰賽 Task4 建模調參
1. 學習目標
- 學習在金融分控領域經常使用的機器學習模型
- 學習機器學習模型的建模過程與調參流程
- 用測試集在調參模型上測試並提交結果並分析比賽反饋準確率
- 深刻學習模型調參的基礎知識和相關原理
- 總結收穫
2. 內容
-
邏輯迴歸模型:web
- 理解邏輯迴歸模型;
- 邏輯迴歸模型的應用;
- 邏輯迴歸的優缺點;
-
樹模型:算法
-
集成模型機器學習
- 基於bagging思想的集成模型
- 基於boosting思想的集成模型
- XGBoost模型
- LightGBM模型
- CatBoost模型
-
模型對比與性能評估:svg
- 迴歸模型/樹模型/集成模型;
- 模型評估方法;
- 模型評價結果;
-
模型調參:函數
-
貪心調參方法;性能
-
網格調參方法;學習
-
貝葉斯調參方法;測試
3. 模型對比
3.1 邏輯迴歸
-
優勢xml
- 訓練速度較快,分類的時候,計算量僅僅只和特徵的數目相關;
- 簡單易理解,模型的可解釋性很是好,從特徵的權重能夠看到不一樣的特徵對最後結果的影響;
- 適合二分類問題,不須要縮放輸入特徵;
- 內存資源佔用小,只須要存儲各個維度的特徵值;
-
缺點blog
-
邏輯迴歸須要預先處理缺失值和異常值【可參考task3特徵工程】;
-
不能用Logistic迴歸去解決非線性問題,由於Logistic的決策面是線性的;
-
對多重共線性數據較爲敏感,且很難處理數據不平衡的問題;
-
準確率並非很高,由於形式很是簡單,很難去擬合數據的真實分佈;
3.2 決策樹模型
- 優勢
- 簡單直觀,生成的決策樹能夠可視化展現
- 數據不須要預處理,不須要歸一化,不須要處理缺失數據
- 既能夠處理離散值,也能夠處理連續值
- 缺點
- 決策樹算法很是容易過擬合,致使泛化能力不強(可進行適當的剪枝)
- 採用的是貪心算法,容易獲得局部最優解
3.3 集成模型集成方法(ensemble method)
經過組合多個學習器來完成學習任務,經過集成方法,能夠將多個弱學習器組合成一個強分類器,所以集成學習的泛化能力通常比單一分類器要好。
集成方法主要包括Bagging和Boosting,Bagging和Boosting都是將已有的分類或迴歸算法經過必定方式組合起來,造成一個更增強大的分類。兩種方法都是把若干個分類器整合爲一個分類器的方法,只是整合的方式不同,最終獲得不同的效果。常見的基於Baggin思想的集成模型有:隨機森林、基於Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。
Baggin和Boosting的區別總結以下:
- 樣本選擇上: Bagging方法的訓練集是從原始集中有放回的選取,因此從原始集中選出的各輪訓練集之間是獨立的;而Boosting方法須要每一輪的訓練集不變,只是訓練集中每一個樣本在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整
- 樣例權重上: Bagging方法使用均勻取樣,因此每一個樣本的權重相等;而Boosting方法根據錯誤率不斷調整樣本的權值,錯誤率越大則權重越大
- 預測函數上: Bagging方法中全部預測函數的權重相等;而Boosting方法中每一個弱分類器都有相應的權重,對於分類偏差小的分類器會有更大的權重
- 並行計算上: Bagging方法中各個預測函數能夠並行生成;而Boosting方法各個預測函數只能順序生成,由於後一個模型參數須要前一輪模型的結果。
4. 內容
時間有點倉促,還有些調參細節沒徹底搞清楚,模型調參後發現模型泛化能力不行,等本週研究透後繼續更新。。。