主成分分析和因子分析的介紹、區別和聯繫

時間 2020-08-08 標籤主成分分析因子分析介紹區別聯繫

本文介紹一下主成分分析、因子分析，進而介紹它們之間的區別和聯繫。
兩個方法的推導我也還有一些沒有徹底理解，所以中間有些理解可能有誤，請你們批評指正web

主成分分析

主成分分析：將多個有必定相關性的指標進行線性組合，以最少的維度解釋原數據中儘量多的信息爲目標進行降維，降維後的各變量間彼此線性無關。
從其介紹中咱們能夠知道，主成分分析其實是將相關性很強的變量經過必定的線性組合合併成一個綜合變量，達到降維的效果，所以對於主成分分析只對那些變量間相關性強的變量纔能有效降維。機器學習

推導角度一：
原來樣本有p個變量x1···xp，現首先指望經過一個線性組合使得相應的方差最大，接下來，相似的再經過一個線性組合找到第二個新變量，使其在原樣本信息中除被第一維度y1解釋掉的部分，剩餘部分信息的方差最大，依次類推下去，直到可以解釋足夠多的原樣本空間信息（通常累計方差佔80%以上），捨棄剩餘的一些信息，以達到降維的效果。
詳細的推導見下面兩張圖片（劃得有點亂了，實在抱歉啦）

圖1

圖2svg

推導角度二：
對於正交空間的樣本點，尋找一個超平面，使得
- 最近重構性：樣本點到這個超平面的距離足夠近；
- 最大可分性：樣本點在這個超平面上的投影能儘量分開；
  周志華老師的書中代表這兩種方法獲得的是公式是等價的。
  
  圖3
  
  圖4
  我以爲周老師書中的最近重構性也能夠理解爲丟失掉的信息儘量少，由於獲得新的正交座標系的基向量{w1,w2,w3````xd}，而後丟棄掉一些座標維度後，將源空間的樣本點投影到新空間獲得新空間樣本點Zi，而後基於Zi重構xi，最後計算二者的距離，使其距離和最小，實際上就是經過距離來度量損失掉的信息，令丟失掉的信息最少，即距離最大，獲得新的座標維度。

因子分析

————————————————————————————————————————
首先，先介紹下因子分析的整個思路：
因子分析其實是提取出反應原變量的一些共性因子，同時但願儘量少的損失樣本信息。
其推導的思路是這樣的：一、創建一個模型：X=AF+e;二、但願求出A，因而對模型取方差，得，若沒有特殊因子項，而後使用樣本的協方差陣去估計X的協方差，進而就能夠求出A了；三、可是實際上咱們但願獲得少數幾個能反應共性變異的因子，所以捨棄特徵根小的那幾個，即儘量的少損失一些信息，並以此達到降維的效果，實際上損失的這一部分也就是特殊因子了。
—————————————————————————————————————————
接下來詳細介紹這個過程：函數

因子分解

因子分析歸納來講就是要獲得一些公共因子，利用這些因子來解釋原來的樣本空間數據，即將X進行分解，X=AF，即
.目標也是儘量保留x中的信息。學習

因子旋轉

在完成分解，獲得公共因子後，若是各個公共因子的實際意義不明顯的話，通常還須要再進行座標旋轉，座標旋轉就是不改變因子所攜帶的各變量的信息量，可是改變各個因子所攜帶的信息量，使得各個因子的實際意義明顯。
好比最多見的正交旋轉（Varimax），最大方差正交旋轉法，使得因子載荷的方差儘量大，即信息分佈儘量不均勻，也就是信息要集中分佈於幾個不一樣的因子上。.net

因子得分計算
獲得意義明確的公共因子以後，因爲咱們以前其實是獲得了因子載荷矩陣A，即獲得了下述方程組，可是咱們會發現，方程數量p多餘咱們要求的值F的數量，這樣一來咱們須要用一些手段來獲得近似F，好比迴歸法等等，來計算出因子得分，也就是各個樣本各個因子的實際值。
詳細推導見下述，也畫的有點多了，見諒
因子分解的推導

圖5

圖6

圖7
因子旋轉的具體過程

圖8

圖9
因子得分的計算

圖10
——————————————————————————————————————
總結一下主成分分析的步驟和因子分析的步驟：
主成分分析分析過程：設計

1.將原始數據標準化，以消除變量間在數量級和量綱上的不一樣。
2. 求標準化數據的相關矩陣。（標準化數據的協方差矩陣就是原數據的相關係數矩陣）
3. 求相關矩陣的特徵值和特徵向量。
4. 計算方差貢獻率與累計方差貢獻率：每一個主成分的貢獻率表明了原數據總信息量的百分比。
5. 肯定主成分：設C1,C2,C3…Cp爲p個主成分，其中前m個主成分的的總信息量（方差貢獻度）不低於80%時，課提取前m個主成分來反映原評價對象。
6. 用原指標的線性組合來計算各主成分得分：以各主成分對原指標的相關係數爲權，將各個主成分表示爲原指標的線性組合，而主成分的經濟意義則由權數較大的指標的綜合意義來肯定（通常主成分能夠不作解釋，這是因子分析擅長的）
7. 綜合得分：

8. 得分排序：利用總得分獲得得分名次3d

因子分分析分析過程：xml

將原始數據標準化，以消除變量間在數量級和量綱上的不一樣。
求標準化數據的相關矩陣。（標準化數據的協方差矩陣就是原數據的相關係數矩陣）
求相關矩陣的特徵值和特徵向量。
計算方差貢獻率與累計方差貢獻率。
肯定因子：設F1,F2,F3…Fp爲p個主成分，其中前m個因子的的總信息量（方差貢獻度）不低於80%時，課提取前m個因子來反映原評價對象。
因子旋轉：若所得到的m個因子沒法肯定或其實際意義不是很明顯，這時需將因子進行旋轉以得到較爲明顯的實際意義。
用原指標的線性組合來計算各因子得分：採用迴歸估計法，Bartlett估計法計算因子得分
綜合得分：以各因子的方差貢獻率爲權，由各因子的線性組合獲得綜合評價指標函數
得分排序：利用總得分獲得得分名次
———————————————————————————————————————
說一下個人理解：主成分分析和因子分析的區別和聯繫（可能理解有誤，但願你們能指正）
一、主成分的目的是將原來的幾個相聯繫的變量經過線性組合壓縮成少數的幾個綜合變量，加以考察，可是這幾個綜合變量每每不具備明顯的現實意義，而因子分析則是指望將一些相互聯繫的變量壓縮，也是經過線性組合獲得一些公共因子，這些公共因子每每有明顯的現實意義。一個在於將原來的變量綜合（Y=AX），一個在於將變量分解，提取公共因素（X=AF）。
二、主成分分析的目標是以儘量少的綜合變量去蘊含原來數據中儘量多的信息，而因子分析的目標是儘量包含原數據儘量多的信息量，沒有要求要以儘量少的因子。也就是說主成分分析的關鍵在於「變異數」的問題，但願綜合指標儘量少，而因子分析在於共變異數的問題，也就是但願變量可以提取出原數據中共有信息（共有方差/變異）。
對於其中說的共有方差/變異有些難理解，我是這樣來理解的。

因子分解如上圖所示，這個等式X=AF+e能夠理解成一個迴歸式，因變量是X，自變量是F，e是偏差（隨機變量），因此實際上該因子分解時在作一個提取影響X的自變量（公共因子）的過程，也就是提取共有方差。
三、當因子分析的特殊因子方差貢獻率爲0時，主成分分析和因子分析（使用主成分法求公共因子）是徹底等價的。二者的係數矩陣之間只是相差一個係數，這個係數是各個特徵根的二次平方根。當主成分分析取標準化係數時，兩個係數矩陣就徹底一致了。

——————————————————————————————————
驗證性因子分析
上面所說的因子分析也就是經常使用的探索性因子分析，而實際因子分析還有一種驗證性因子分析，驗證性因子分析正如其名字，是用來驗證一種結構的，舉一個例子：根據理論咱們能夠構建出一個問卷，問卷中有不少題目，其中1-3題共同反映因子A，4-6題共同反映因子B，而後即可以使用驗證性因子分析（CFA），去驗證這種關係是否存在，以及問卷設計的信效度是否很好。具體的介紹能夠個人這篇博文

————————————————————————————————————
參考文獻：
王斌會.《多元統計分析及R語言建模》
周志華.《機器學習》
張文彤,董偉.《SPSS統計分析高級教程》對象