天池金融風控-貸款違約挑戰賽 Task4 建模調參

1. 學習目標

  1. 學習在金融分控領域經常使用的機器學習模型
  2. 學習機器學習模型的建模過程與調參流程
  3. 用測試集在調參模型上測試並提交結果並分析比賽反饋準確率
  4. 深刻學習模型調參的基礎知識和相關原理
  5. 總結收穫

2. 內容

  • 邏輯迴歸模型:web

    • 理解邏輯迴歸模型;
    • 邏輯迴歸模型的應用;
    • 邏輯迴歸的優缺點;
  • 樹模型:算法

    • 理解樹模型;
    • 樹模型的應用;
    • 樹模型的優缺點;
  • 集成模型機器學習

    • 基於bagging思想的集成模型
      • 隨機森林模型
    • 基於boosting思想的集成模型
      • XGBoost模型
      • LightGBM模型
      • CatBoost模型
  • 模型對比與性能評估:svg

    • 迴歸模型/樹模型/集成模型;
    • 模型評估方法;
    • 模型評價結果;
  • 模型調參:函數

    • 貪心調參方法;性能

    • 網格調參方法;學習

    • 貝葉斯調參方法;測試

3. 模型對比

3.1 邏輯迴歸

  • 優勢xml

    • 訓練速度較快,分類的時候,計算量僅僅只和特徵的數目相關;
    • 簡單易理解,模型的可解釋性很是好,從特徵的權重能夠看到不一樣的特徵對最後結果的影響;
    • 適合二分類問題,不須要縮放輸入特徵;
    • 內存資源佔用小,只須要存儲各個維度的特徵值;
  • 缺點blog

    • 邏輯迴歸須要預先處理缺失值和異常值【可參考task3特徵工程】;

    • 不能用Logistic迴歸去解決非線性問題,由於Logistic的決策面是線性的;

    • 對多重共線性數據較爲敏感,且很難處理數據不平衡的問題;

    • 準確率並非很高,由於形式很是簡單,很難去擬合數據的真實分佈;

3.2 決策樹模型

  • 優勢
    • 簡單直觀,生成的決策樹能夠可視化展現
    • 數據不須要預處理,不須要歸一化,不須要處理缺失數據
    • 既能夠處理離散值,也能夠處理連續值
  • 缺點
    • 決策樹算法很是容易過擬合,致使泛化能力不強(可進行適當的剪枝)
    • 採用的是貪心算法,容易獲得局部最優解

3.3 集成模型集成方法(ensemble method)

經過組合多個學習器來完成學習任務,經過集成方法,能夠將多個弱學習器組合成一個強分類器,所以集成學習的泛化能力通常比單一分類器要好。

集成方法主要包括Bagging和Boosting,Bagging和Boosting都是將已有的分類或迴歸算法經過必定方式組合起來,造成一個更增強大的分類。兩種方法都是把若干個分類器整合爲一個分類器的方法,只是整合的方式不同,最終獲得不同的效果。常見的基於Baggin思想的集成模型有:隨機森林、基於Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。

Baggin和Boosting的區別總結以下:

  • 樣本選擇上: Bagging方法的訓練集是從原始集中有放回的選取,因此從原始集中選出的各輪訓練集之間是獨立的;而Boosting方法須要每一輪的訓練集不變,只是訓練集中每一個樣本在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整
  • 樣例權重上: Bagging方法使用均勻取樣,因此每一個樣本的權重相等;而Boosting方法根據錯誤率不斷調整樣本的權值,錯誤率越大則權重越大
  • 預測函數上: Bagging方法中全部預測函數的權重相等;而Boosting方法中每一個弱分類器都有相應的權重,對於分類偏差小的分類器會有更大的權重
  • 並行計算上: Bagging方法中各個預測函數能夠並行生成;而Boosting方法各個預測函數只能順序生成,由於後一個模型參數須要前一輪模型的結果。

4. 內容

在這裏插入圖片描述 時間有點倉促,還有些調參細節沒徹底搞清楚,模型調參後發現模型泛化能力不行,等本週研究透後繼續更新。。。