構建信用風險綜合評價體系——基於主成分與因子分析

多維數據在建模過程當中,會出現不少問題,在基於logit模型的客戶信用風險預測一文中,有談到關於變量降維的幾種方法:(1)基於經驗,簡單但主觀性很強;(2)基於變量的統計顯著性,模型上可靠但未必實務上可用;(3)變量規約,即用因子分析、主成分分析等方法將多個變量分解或合成爲少數幾個聚合因子。git

以前用的是(1)和(2),這篇文章討論第三種:主成分分析與因子分析。首先解決兩個問題。web

  • 什麼是主成分分析與因子分析

同:都是統計降維方法,將多個變量濃縮爲少數幾個新變量(主成分或因子)
異:濃縮方法不一樣,主成分分析是將原變量進行聚合,新變量(主成分)表示爲原變量的線性組合;因子分析是將原變量進行結構,原變量表示爲新變量(因子)的線性組合。網絡

  • 主成分分析與因子分析有什麼用?

(1)對解釋變量進行降維處理,輸出值做爲下一步的輸入值,做爲其它建模過程的準備部分。
(2)直接做爲建模主體,構建指標評價體系。svg

下面經過一個案例加以說明。
背景與上一篇文章類似,咱們依然但願經過一些變量和數據創建起客戶(銀行)的風險評估體系,具體分爲這幾個步驟:(1)變量選擇;(2)源數據與預處理;(3)數據探索;(4)因子分析;(5)結論。.net

(一)變量的選擇、指標體系的構建
根據指標選取原則,同時參考銀行行業規範,考慮從資本充足性、資產質量、流動性、盈利性和成長性5個方面來創建指標體系,具體如表1-1所示:
在這裏插入圖片描述
(二)數據的來源與處理
爲了保證樣本的同質性以及數據的可得性,選取的是2014—2016年在市的16家銀行,具體數據可分別從各家銀行的年報獲得。接下來須要對數據進行預處理,根據上面的計算公式,收集財務報表上的數據,整理後的數據部分見表1-2:
在這裏插入圖片描述
(三)數據探索
這份數據有12個變量,存在明顯的多重共線性,這是變量規約在處理高維數據之外另外一個能夠克服的問題。
在這裏插入圖片描述
(四)因子分析
這一步主要有2個目的,計算因子綜合得分進而分組以對原指標體系的合理性進行證實。根據上一部分所述,具體過程以下:xml

1.肯定待分析的原有若干變量是否適合進行因子分析
經過前面相關圖的直觀展現,再加上進一步KMO和Bartlett的球形檢驗的結果(P值接近0),可得結論:樣本數據適合作因子分析。
在這裏插入圖片描述
2.構造因子變量
觀察特徵值和累計方差貢獻率,5個因子恰好,能解釋總方差的88.365%,並且最後被選入的特徵值爲0.903(≈1),這與咱們以往根據特徵值大小選取因子個數的經驗作法也不違背。blog

在這裏插入圖片描述

3.因子變量的解釋
旋轉獲得的載荷矩陣如表2-3所示:
在這裏插入圖片描述
觀察因子載荷矩陣,除了貸存比(x7)表現得比較反常外,因子分析獲得5個組合因子剛好能對應原來5個綜合指標。
在這裏插入圖片描述
4.計算因子得分並排序分組
因子得分可由軟件直接輸出,但綜合得分需自行計算,公式爲:
在這裏插入圖片描述
注:VDRi爲各因子對應的方差貢獻度。排序

接下來對綜合得分排序,分類,爲後續的logit分析、神經網絡分析作準備。分類規則爲:選取一個界點,低於該值,風險較大,取1;高於該值,較爲穩健,取0。由於風險高低只是一個相對概念,並不真正存在一個臨界值做爲兩組的分界點,再者,後續會有模型校訂,全部這裏的界點選取可稍任意,如這裏取「-0.2」
在這裏插入圖片描述
5.驗證分組效果
接下來對上面的分組效果進行驗證,主要是經過具體指標在兩組間的區分度,對劃分後兩組樣本作方差分析。
在這裏插入圖片描述
從方差分析結果來看,兩組樣本在8個指標,即資本充足率(x1)、核心資本充足率(x2)、不良貸款率(x3)、撥備覆蓋率(x4)、貸款總準備金率(x5)、貸存比(x7)、資產收益率(x8)、資本利潤率(x9)上區分度都很高。圖片

(五)結論
1.指標體系的從新構建
初始的12個指標,是基於經驗和歷史構造的,並不必定能適用於如今的數據,因此咱們用因子分析對變量作了一個從新組合,發現除x7反常外,其它基本一致。
在這裏插入圖片描述
2.因子得分下的風險度量
經過計算因子得分,度量風險大小,取值越小風險越大。
選擇一個合適的閾值進行分組,這裏暫不展開,可是選-0.2分爲兩組後,經過方差分析可證實此時分組效果是不錯的。get

3.另外一種思路下的風險評估 因子分析的結果可做爲其它建模過程的準備,經過因子分析獲取的每一個樣本在F1到F5上的取值,是能夠繼續進行聚類分析的,這種方法比按因子得分選閾值更可靠(由於臨界值真得不大好肯定),此外,因子得分排名告訴咱們綜合實力誰強誰弱,但kmeans聚類也許能幫咱們找到有長短明顯的「偏科生」。