本文介紹一下主成分分析、因子分析,進而介紹它們之間的區別和聯繫。
兩個方法的推導我也還有一些沒有徹底理解,所以中間有些理解可能有誤,請你們批評指正web
主成分分析:將多個有必定相關性的指標進行線性組合,以最少的維度解釋原數據中儘量多的信息爲目標進行降維,降維後的各變量間彼此線性無關。
從其介紹中咱們能夠知道,主成分分析其實是將相關性很強的變量經過必定的線性組合合併成一個綜合變量,達到降維的效果,所以對於主成分分析只對那些變量間相關性強的變量纔能有效降維。機器學習
圖2svg
————————————————————————————————————————
首先,先介紹下因子分析的整個思路:
因子分析其實是提取出反應原變量的一些共性因子,同時但願儘量少的損失樣本信息。
其推導的思路是這樣的:一、創建一個模型:X=AF+e;二、但願求出A,因而對模型取方差,得,若沒有特殊因子項,而後使用樣本的協方差陣去估計X的協方差,進而就能夠求出A了;三、可是實際上咱們但願獲得少數幾個能反應共性變異的因子,所以捨棄特徵根小的那幾個,即儘量的少損失一些信息,並以此達到降維的效果,實際上損失的這一部分也就是特殊因子了。
—————————————————————————————————————————
接下來詳細介紹這個過程:函數
因子分析歸納來講就是要獲得一些公共因子,利用這些因子來解釋原來的樣本空間數據,即將X進行分解,X=AF,即
.目標也是儘量保留x中的信息。學習
在完成分解,獲得公共因子後,若是各個公共因子的實際意義不明顯的話,通常還須要再進行座標旋轉,座標旋轉就是不改變因子所攜帶的各變量的信息量,可是改變各個因子所攜帶的信息量,使得各個因子的實際意義明顯。
好比最多見的正交旋轉(Varimax),最大方差正交旋轉法,使得因子載荷的方差儘量大,即信息分佈儘量不均勻,也就是信息要集中分佈於幾個不一樣的因子上。.net
因子得分計算
獲得意義明確的公共因子以後,因爲咱們以前其實是獲得了因子載荷矩陣A,即獲得了下述方程組,可是咱們會發現,方程數量p多餘咱們要求的值F的數量,這樣一來咱們須要用一些手段來獲得近似F,好比迴歸法等等,來計算出因子得分,也就是各個樣本各個因子的實際值。
詳細推導見下述,也畫的有點多了,見諒
因子分解的推導
圖5
圖6
圖7
因子旋轉的具體過程
圖8
圖9
因子得分的計算
圖10
——————————————————————————————————————
總結一下主成分分析的步驟和因子分析的步驟:
主成分分析分析過程:設計
1.將原始數據標準化,以消除變量間在數量級和量綱上的不一樣。
2. 求標準化數據的相關矩陣。(標準化數據的協方差矩陣就是原數據的相關係數矩陣)
3. 求相關矩陣的特徵值和特徵向量。
4. 計算方差貢獻率與累計方差貢獻率:每一個主成分的貢獻率表明了原數據總信息量的百分比。
5. 肯定主成分:設C1,C2,C3…Cp爲p個主成分,其中前m個主成分的的總信息量(方差貢獻度)不低於80%時,課提取前m個主成分來反映原評價對象。
6. 用原指標的線性組合來計算各主成分得分:以各主成分對原指標的相關係數爲權,將各個主成分表示爲原指標的線性組合,而主成分的經濟意義則由權數較大的指標的綜合意義來肯定(通常主成分能夠不作解釋,這是因子分析擅長的)
7. 綜合得分:
8. 得分排序:利用總得分獲得得分名次3d
因子分分析分析過程:xml
————————————————————————————————————
參考文獻:
王斌會.《多元統計分析及R語言建模》
周志華.《機器學習》
張文彤,董偉.《SPSS統計分析高級教程》對象