【通俗理解】協方差

The 「covariance」 of 2 features, e.g. feature i and feature j measures: (Select all that apply)
A. How much the 2 features vary in the same direction.
B. The average ratio of feature i and feature j.
C. The sum of deviations of feature i and feature j.
D. The deviation of feature i multiplied by the deviation of feature j, summed over all data points.

640?wx_fmt=png&wxfrom=5&wx_lazy=1

上面是一道通訊公司招聘筆試題。由協方差的公式(及其變形)不難選出正確答案(給公衆號發送「協方差」得到答案)。但願經過此題,讓你們熟悉一下一些概念:均值/指望,方差,協方差,相關係數。app

基本概念科普

指望方差等被稱做統計變量的數字特徵。咱們知道,機率密度函數能夠徹底描述一個統計變量的特性。正如一個用一個照片來描述一我的的長相同樣。機率密度函數多是個複雜的函數。有時候咱們但願一個數字來獲得這個隨機變量的一些信息。好比用一個分數來描述一我的長相^_^。最基本的就是均值/指望和方差了,還有各類高階矩陣。函數

描述兩個隨機變量的關係,咱們有聯合機率密度。一樣地,咱們能夠用簡單的一個數字來刻畫這兩個隨機變量的一些關係。最經常使用的是協方差相關係數。看公式知道,相關係數就是歸一化的協方差。spa



0?wx_fmt=png



根據上面協方差公式(上面分數的分子部分),兩個變量同時大於均值或小於均值時,加分,不然減分。加減分數由當前觀察值和均值的差決定。這就刻畫了兩個隨機變量在多大程度上共同朝大於/小於均值方向波動。能夠通俗的理解爲:兩個變量在變化過程當中是同方向變化?仍是反方向變化?同向或反向程度如何?你變大,同時我也變大,說明兩個變量是同向變化的,這時協方差就是正的。你變大,同時我變小,說明兩個變量是反向變化的,這時協方差就是負的。我變大時你有時候變大有時候變小,指望裏面的乘積項就有正有負,征服抵消就使指望趨於零。code

再看相關係數的公式,知道其取值範圍是{-1,+1}。由於表達式的分子分母正好是柯西-施瓦茲不等式的兩邊。柯西-施瓦茲公式有不少種形式,能夠籠統表達爲兩個信號的內積小於或等於它們各自的能量之積。ip


通訊中方差的物理意義

方差,在通訊中有更直觀的物理意義:噪聲功率。在高斯白噪聲信道中,發送信號x,接收信號y=x+n。n表示噪聲,來自於元器件熱噪聲或無線信道的各類隨機干擾,是高斯的 (WHY?)。y-x則是均值爲零,方差爲 sigma^2 的一個隨機變量。方差就是噪聲功率,表示噪聲的強度。
同步

0?wx_fmt=png

假設發送的x取值爲+1或-1。若是沒有噪聲存在,接收到的y也是+1或-1,能夠百分之百獲得x。在高斯噪聲的影響下,發送x=1時接收到的是一個均值爲1,方差爲 sigma^2 的隨機變量。-1時同理,如上圖所示。直觀都能獲得最優判決閾值是0點,錯誤機率是發送1/0接收到0/1的狀況。噪聲方差越大,上圖的高斯曲線越胖,錯誤率就越高。it


通訊中的相關應用

相關E(XY),協方差E(XY)-E(X)E(Y),在公式上差一個均值乘積項。咱們這裏討論更簡單的相關。相關,在通訊中應用是最廣泛的。具體又有自相關和互相關,表示和自身求相關或兩個變量求相關。io

擴頻通訊的例子
class

好比有一個簡單的通訊系統,碼本里有80個僞隨機碼,每一個僞隨機碼錶示一個字母或標點符號。僞隨機碼形式爲{+1,+1,-1,+1,-1,...,-1}。發送端發送80個僞隨機碼中的一個X_i,在傳輸過程當中,一些比特被污染,接收到的版本Y和發送X_i 的不一樣。如何斷定發送的是哪一個?import

接收端採用計算相關的辦法,對80個僞隨機碼裏面的每個 X_j 和Y作相關運算,求E(XY),獲得的最大的判斷爲發送信號。很明顯,若是Y就是某個X_i,則E(XY)=1,不然隨着隨機碼長度增長趨於0,由於E(X_iX_j)=0。


上面是一個數字信號的例子。在模擬信號中,計算相關進行信號檢測被稱做匹配濾波器,或被稱做rake接收機。假設發送信號x,接收到的信號y即便通過信道通過了畸變和噪聲,但和x仍然是強相關的。

最起碼有兩類應用:1) 收到一段時間y信號,若是x出現一次,求在這段時間的哪一個時刻出現;2) 收到一段y,發送的信號多是x_1, x_2, ..., x_n,哪一個最有可能。

實際通訊系統中,匹配濾波無處不在。GPS系統中,幾十顆衛星發送不一樣的僞隨機碼,GPS終端須要根據信號到達時間和衛星座標來計算本身的位置。發現信號以及肯定時間就用的是匹配濾波器。3G通訊系統CDMA,使用擴頻碼把發送信號的能量散步在整個帶寬上,其功率甚至低於噪聲,也是用匹配濾波來發現信號。4G LTE通訊系統中,小區搜索,幀同步等也用了匹配濾波的原理。



進一步閱讀


1. 自相關函數。發送信號x不是一個數而是一個關於時間t函數(連續函數)或時間序列(離散函數)。自相關也是一個函數,自變量爲時間差\tao。說到自相關函數就不得不提功率譜密度--表示信號能量在頻域的分佈。自相關函數和功率譜密度是一對傅立葉變換是通訊和信號處理的最基本常識之一。

2. 自相關矩陣。主對角元素是某個維度的自相關,輔對角線是不一樣維度的互相關。若是各個維度相對獨立,則互相關爲0,對應的協方差矩陣是對角陣。

3. 協方差矩陣。和自相關矩陣差一個常數矩陣項。

0?wx_fmt=jpeg