天池金融風控-貸款違約挑戰賽 Task4 建模調參

時間 2020-09-28 標籤天池金融風控貸款違約挑戰賽 task4 task 4 建模調參

天池金融風控-貸款違約挑戰賽 Task4 建模調參

1. 學習目標

學習在金融分控領域經常使用的機器學習模型
學習機器學習模型的建模過程與調參流程
用測試集在調參模型上測試並提交結果並分析比賽反饋準確率
深刻學習模型調參的基礎知識和相關原理
總結收穫

2. 內容

邏輯迴歸模型：web
- 理解邏輯迴歸模型；
- 邏輯迴歸模型的應用；
- 邏輯迴歸的優缺點；
樹模型：算法
- 理解樹模型；
- 樹模型的應用；
- 樹模型的優缺點；
集成模型機器學習
- 基於bagging思想的集成模型
  - 隨機森林模型
- 基於boosting思想的集成模型
  - XGBoost模型
  - LightGBM模型
  - CatBoost模型
模型對比與性能評估：svg
- 迴歸模型/樹模型/集成模型；
- 模型評估方法；
- 模型評價結果；
模型調參：函數
- 貪心調參方法；性能
- 網格調參方法；學習
- 貝葉斯調參方法；測試

3. 模型對比

3.1 邏輯迴歸

優勢xml
- 訓練速度較快，分類的時候，計算量僅僅只和特徵的數目相關；
- 簡單易理解，模型的可解釋性很是好，從特徵的權重能夠看到不一樣的特徵對最後結果的影響；
- 適合二分類問題，不須要縮放輸入特徵；
- 內存資源佔用小，只須要存儲各個維度的特徵值；
缺點blog
- 邏輯迴歸須要預先處理缺失值和異常值【可參考task3特徵工程】；
- 不能用Logistic迴歸去解決非線性問題，由於Logistic的決策面是線性的；
- 對多重共線性數據較爲敏感，且很難處理數據不平衡的問題；
- 準確率並非很高，由於形式很是簡單，很難去擬合數據的真實分佈；

3.2 決策樹模型

優勢
- 簡單直觀，生成的決策樹能夠可視化展現
- 數據不須要預處理，不須要歸一化，不須要處理缺失數據
- 既能夠處理離散值，也能夠處理連續值
缺點
- 決策樹算法很是容易過擬合，致使泛化能力不強（可進行適當的剪枝）
- 採用的是貪心算法，容易獲得局部最優解

3.3 集成模型集成方法（ensemble method）

經過組合多個學習器來完成學習任務，經過集成方法，能夠將多個弱學習器組合成一個強分類器，所以集成學習的泛化能力通常比單一分類器要好。

集成方法主要包括Bagging和Boosting，Bagging和Boosting都是將已有的分類或迴歸算法經過必定方式組合起來，造成一個更增強大的分類。兩種方法都是把若干個分類器整合爲一個分類器的方法，只是整合的方式不同，最終獲得不同的效果。常見的基於Baggin思想的集成模型有：隨機森林、基於Boosting思想的集成模型有：Adaboost、GBDT、XgBoost、LightGBM等。

Baggin和Boosting的區別總結以下：

樣本選擇上： Bagging方法的訓練集是從原始集中有放回的選取，因此從原始集中選出的各輪訓練集之間是獨立的；而Boosting方法須要每一輪的訓練集不變，只是訓練集中每一個樣本在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整
樣例權重上： Bagging方法使用均勻取樣，因此每一個樣本的權重相等；而Boosting方法根據錯誤率不斷調整樣本的權值，錯誤率越大則權重越大
預測函數上： Bagging方法中全部預測函數的權重相等；而Boosting方法中每一個弱分類器都有相應的權重，對於分類偏差小的分類器會有更大的權重
並行計算上： Bagging方法中各個預測函數能夠並行生成；而Boosting方法各個預測函數只能順序生成，由於後一個模型參數須要前一輪模型的結果。

4. 內容

時間有點倉促，還有些調參細節沒徹底搞清楚，模型調參後發現模型泛化能力不行，等本週研究透後繼續更新。。。